谷歌近期發起的“首屆大模型對抗賽”(First LLM Battle Royale)吸引了全球多個頂尖大模型參與,其中包括來自中國的DeepSeek-R1和Kimi K2 Instruct。然而,在首輪比賽中,這兩款中國模型的表現並不理想,未能晉級下一輪,引發了業界關注。
比賽背景
主辦方:Google DeepMind 牽頭,聯合多家學術機構舉辦。
目標:通過對抗性測試(如紅隊攻擊、對抗性提示等)評估大模型的安全性和魯棒性。
參賽模型:包括 OpenAI GPT-4o、Anthropic Claude 3、Google Gemini 1.5、Meta Llama 3、DeepSeek-R1、Kimi K2 Instruct 等。
中國模型首輪表現
DeepSeek-R1(深度求索):
Kimi K2 Instruct(月之暗面):
可能的原因分析
對抗性訓練不足:相比 OpenAI 和 Anthropic 的模型,中國大模型在對抗性測試方面的優化可能較少。
數據偏差:訓練數據可能更側重中文環境,對國際化的對抗性測試適應性較弱。
安全策略差異:部分中國模型可能更注重合規性而非對抗性攻擊防禦,導致在“被刻意誘導”時表現不佳。
後續影響
展望
雖然首輪表現不佳,但中國大模型的發展速度極快,未來可能會在更全面的基準測試(如 C-Eval、GAOKAO-Bench)中展現優勢。同時,這類對抗賽也為全球AI安全研究提供了重要參考。