今日快訊:AI榜單“變天”了！馬斯克發(fā)布Grok 4.1，盲測(cè)排名登頂?shù)谝?/div>

時(shí)間：2025-11-18 09:26:06

就在OpenAI發(fā)布GPT-5.1，大談“情商”之際，埃隆·馬斯克（Elon Musk）也帶著他的xAI，火速加入了這場(chǎng)“AI體驗(yàn)”之戰(zhàn)。

(相關(guān)資料圖)

就在剛剛，xAI宣布推出Grok 4.1，這是對(duì)現(xiàn)有Grok 4模型的重大升級(jí)，并已在grok.com、X平臺(tái)以及iOS和Android應(yīng)用向所有用戶全面開放。。官方宣稱，新版本在創(chuàng)意表達(dá)、情感互動(dòng)和協(xié)同交流方面表現(xiàn)尤為突出，并且出現(xiàn)幻覺的概率僅為此前模型的三分之一。

更引人注目的是，在一個(gè)公開的“盲測(cè)”競(jìng)技場(chǎng)（LMArena）上，Grok 4.1的“思考模式”版本已悄然登頂總榜第一，甚至其“非推理”的快速模式，都擊敗了所有對(duì)手的“完整推理”模式。

這場(chǎng)突如其來的“榜首易主”，無疑為日趨白熱化的AI競(jìng)賽，又增添了濃重的火藥味。

Grok 4.1升級(jí)了什么？

xAI本次發(fā)布了兩個(gè)Grok 4.1模型：Grok 4.1（非推理模式）和 Grok 4.1 Thinking（思考模式）。這兩個(gè)模型均可免費(fèi)使用，但付費(fèi)用戶面臨的限制更少。

官方表示，新版本能更細(xì)致地理解隱含意圖，與之對(duì)話引人入勝，也更能保持人設(shè)的一致性。

為了優(yōu)化模型的風(fēng)格、人格和有用性，xAI利用前沿的代理型推理模型（agentic reasoning models）作為“獎(jiǎng)勵(lì)模型”，在大規(guī)模環(huán)境中自主評(píng)估并迭代模型的回答。

在11月1日至14日的“靜默上線”期間，xAI在真實(shí)流量上進(jìn)行了盲測(cè)式的成對(duì)比較評(píng)估，結(jié)果顯示，在64.78%的情況下，用戶更偏好Grok 4.1。

“盲測(cè)”登頂，Grok 4.1到底有多強(qiáng)？

Grok 4.1在盲測(cè)的人類偏好評(píng)估中樹立了新的行業(yè)標(biāo)準(zhǔn)。

LMArena是一個(gè)開源工具，用戶可以通過并排、盲測(cè)的方式，比較不同大語言模型的表現(xiàn)。在這個(gè)競(jìng)爭(zhēng)最激烈的“斗獸場(chǎng)”里，Grok 4.1取得了驚人的成績：

· Grok 4.1的“思考模式”（代號(hào)：quasarflux）以1483 Elo的成績位列總榜第一，領(lǐng)先所有非xAI模型31分。

· Grok 4.1的“非推理模式”（代號(hào)：tensor）無需使用“思考詞元”（thinking tokens），可立即生成回答，并以1465 Elo的成績排名第二。

· 更夸張的是，Grok 4.1的“非推理”模式表現(xiàn)，超過了所有其他模型在“完整推理模式”下的公開排行榜成績。

與之相比， Grok 4此前在該榜單上的綜合排名僅為第33位。

“情商”與“文采”，一個(gè)都不能少

除了通用能力，xAI還強(qiáng)調(diào)了新模型在“軟實(shí)力”上的提升。

· 情緒智能（Emotional Intelligence）為評(píng)估模型在個(gè)性與人際互動(dòng)方面的進(jìn)展，xAI對(duì)Grok 4.1進(jìn)行了EQ-Bench3測(cè)試。這是一項(xiàng)由LLM作為裁判的測(cè)試，用于評(píng)估模型在主動(dòng)情緒智能、理解力、洞察力、共情能力和人際技能方面的表現(xiàn)。

· 創(chuàng)意寫作能力（Creative Writing）xAI同樣測(cè)量了Grok 4.1在Creative Writing v3基準(zhǔn)測(cè)試中的表現(xiàn)。在該測(cè)試中，模型需要根據(jù)32個(gè)不同的寫作提示，在3次迭代中生成回答。

更少的“幻覺”

快速響應(yīng)模型在配備搜索工具后，雖然能迅速給出答案，但更容易出現(xiàn)事實(shí)性錯(cuò)誤。

在Grok 4.1的后訓(xùn)練階段，xAI重點(diǎn)降低了模型在信息查詢類提示中的事實(shí)性“幻覺”。

根據(jù)xAI的說法，Grok 4.1出現(xiàn)幻覺的概率是此前模型的三分之一，這使其成為xAI迄今為止的最佳版本之一。

為了驗(yàn)證這一點(diǎn)，xAI不僅在真實(shí)的生產(chǎn)流量中進(jìn)行了評(píng)估，還使用了FActScore——一個(gè)包含500道關(guān)于人物傳記問題的公開基準(zhǔn)測(cè)試。

挑戰(zhàn)與未來：真正的對(duì)手還在路上

盡管Grok 4.1的“盲測(cè)”成績斐然，但AI的王座之爭(zhēng)遠(yuǎn)未結(jié)束。

目前，我們尚不清楚它與GPT-5.1相比的真實(shí)表現(xiàn)。

更重要的是，谷歌（Google）正在準(zhǔn)備發(fā)布Gemini 3.0，這可能會(huì)成為迄今為止最強(qiáng)大的模型。

Grok 4.1的發(fā)布，無疑是馬斯克在AI競(jìng)賽中投下的一枚重要棋子。但在這場(chǎng)“神仙打架”的牌局中，誰能笑到最后，還遠(yuǎn)未可知。（易句）

（本文由AI翻譯，網(wǎng)易編輯負(fù)責(zé)校對(duì)）

關(guān)鍵詞：馬斯克盲測(cè) grok 推理

延伸閱讀:

今日快訊:AI榜單“變天”了！馬斯克發(fā)布Grok 4.1，盲測(cè)排名登頂?shù)谝?/a> 2025-11-18

版權(quán)聲明：
凡注明來網(wǎng)絡(luò)消費(fèi)網(wǎng)的作品，版權(quán)均屬網(wǎng)絡(luò)消費(fèi)網(wǎng)所有，未經(jīng)授權(quán)不得轉(zhuǎn)載、摘編或利用其它方式使用上述作品。已經(jīng)本網(wǎng)授權(quán)使用作品的，應(yīng)在授權(quán)范圍內(nèi)使用，并注明"來源：網(wǎng)絡(luò)消費(fèi)網(wǎng)"。違反上述聲明者，本網(wǎng)將追究其相關(guān)法律責(zé)任。
除來源署名為網(wǎng)絡(luò)消費(fèi)網(wǎng)稿件外，其他所轉(zhuǎn)載內(nèi)容之原創(chuàng)性、真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾，請(qǐng)讀者僅作參考并自行核實(shí)。

熱文