世界杯成AI公開考場,中國移動九天亮相人機(jī)大戰(zhàn)躋身領(lǐng)先梯隊

來源:直播吧

15場小組賽后,世界杯成了中國AI最誠實的考場

一張世界杯預(yù)測排行榜,正在變得比很多大模型評測基準(zhǔn)更容易被公眾理解。

咪咕視頻與聯(lián)想集團(tuán)聯(lián)合發(fā)起的“世界杯預(yù)測人機(jī)大戰(zhàn)”進(jìn)行到第15場,12大AI模型的階段成績已經(jīng)浮出水面:百度文心7場命中,勝率46.7%,暫列第一;聯(lián)想天禧AI、中移九天、騰訊混元、MiniMax均為6場命中,勝率40.0%,處于領(lǐng)先梯隊;

DeepSeek、通義千問、智譜、階躍星辰、商湯小浣熊均為5場命中,勝率33.3%;Kimi和訊飛星火均為4場命中,勝率26.7%。

這組數(shù)據(jù)本身并不復(fù)雜。真正值得關(guān)注的是,它把一個更大的問題推到了臺前:當(dāng)大模型走出實驗室評測,進(jìn)入一個有真實結(jié)果、有公開對照、有持續(xù)驗證的公共場景時,各家模型的表現(xiàn)會呈現(xiàn)出怎樣的差異?

世界杯正在給出一個足夠誠實的答案。

各家都在預(yù)測,但只有同一張答卷才能比較

世界杯開賽前一周,中國AI行業(yè)圍繞世界杯的營銷戰(zhàn)已經(jīng)打響。

Kimi在世界杯前下場。6月8日,月之暗面宣布調(diào)度300個子Agent組成“Agent集群”,從戰(zhàn)術(shù)、球員、傷病、賽程、輿情、天氣、心理、賠率等多個維度,對104場比賽逐場做賽前預(yù)測和賽后復(fù)盤,并發(fā)布了系統(tǒng)性的預(yù)測報告。配合“萬億Token”瓜分活動,Kimi也給出了一個有強(qiáng)傳播力的自我提示:“我們的預(yù)測很可能是錯的?!?/p>

千問緊隨其后。阿里在6月11日上線“足球預(yù)測AI助手”,面向用戶開放,強(qiáng)調(diào)引入球隊、球員之外的環(huán)境變量,包括美加墨三國的地貌、海拔、濕度和比賽日天氣數(shù)據(jù)。同時,“千問球場計劃”把競猜積分與鄉(xiāng)村學(xué)校足球場捐建掛鉤,把世界杯預(yù)測與公益?zhèn)鞑ソY(jié)合起來。

DeepSeek、智譜、百度文心、訊飛星火、商湯等模型,也都以不同方式進(jìn)入世界杯預(yù)測場景。整個行業(yè)都意識到了同一件事:48支球隊、104場比賽、39天賽程、全球關(guān)注,這幾乎是2026年最天然的AI公共展示舞臺。

但問題也隨之出現(xiàn):各家各做各的,外界很難比較。

一個用戶想知道DeepSeek和Kimi誰猜得更準(zhǔn),需要分別去不同平臺查預(yù)測,再手動對照賽果。放到104場比賽的體量里,這件事幾乎不現(xiàn)實。更重要的是,各家預(yù)測的發(fā)布時間、呈現(xiàn)格式、分析維度和復(fù)盤口徑并不統(tǒng)一,缺少同一張答卷,也就很難形成真正的橫向比較。

事實上,早在Kimi、千問單個模型下場之前,聯(lián)想集團(tuán)與咪咕已經(jīng)攢起了全球首個多AI同臺進(jìn)行世界杯預(yù)測的局。

這場由咪咕與聯(lián)想天禧AI聯(lián)合發(fā)起的世界杯預(yù)測人機(jī)大戰(zhàn)”中,DeepSeek、Kimi、千問、百度文心、騰訊混元、智譜、MiniMax、階躍星辰、訊飛星火、商湯小浣熊、中移九天等國內(nèi)主流大模型,與天禧AI自身放在同一張頁面上,對每場比賽給出統(tǒng)一格式的勝平負(fù)和比分預(yù)測。所有預(yù)測賽前同步展示,賽后即時驗證,全程公開記錄。

這不是技術(shù)上最復(fù)雜的方案,卻可能是傳播上最有效的方案:它讓“AI誰更懂球”這件事,從各說各話,變成了同場考試。

技術(shù)方案越復(fù)雜,就一定越準(zhǔn)嗎?

15場數(shù)據(jù)已經(jīng)足夠讓人看到一些反直覺的結(jié)果。

Kimi拿出了行業(yè)里最重的世界杯預(yù)測方案之一:300個Agent集群并行推演,覆蓋戰(zhàn)術(shù)、賠率、心理、天氣等多個分析維度。從技術(shù)復(fù)雜度和資源投入看,這幾乎是本屆世界杯AI預(yù)測賽道中最“豪華”的配置之一。

但15場過后,Kimi階段成績?yōu)?場命中,勝率26.7%。

通義千問引入了地貌、天氣等環(huán)境數(shù)據(jù)。這些維度理論上能補(bǔ)足傳統(tǒng)足球分析中容易被忽略的變量。但15場過后,通義千問5場命中,勝率33.3%。

反觀聯(lián)想天禧AI,它沒有把傳播重點(diǎn)放在“調(diào)用了多少Agent”或“納入多少維度”上,而是以超級智能體的方式給出自己的判斷,同時把其他11家模型的判斷一起放進(jìn)同一個可驗證場景。15場過后,聯(lián)想天禧AI6場命中,勝率40.0%,位于領(lǐng)先梯隊,與榜首只差一場。

這組對比并不能簡單推出“復(fù)雜架構(gòu)無效”的結(jié)論。15場樣本仍然有限,足球預(yù)測本身也高度依賴偶然性。但它至少提出了一個值得討論的問題:在足球預(yù)測這樣強(qiáng)不確定性的場景里,更多Agent、更復(fù)雜維度,是否一定能轉(zhuǎn)化為更高命中率?

至少從階段結(jié)果看,答案并不確定。

這也是世界杯作為AI驗證場景的獨(dú)特之處。它不關(guān)心模型講了多少推理鏈條,也不關(guān)心預(yù)測報告寫了多少頁。最終,只有一個問題:終場比分是否站在你這一邊。

平局盲區(qū):12個模型共同遇到的難題

15場比賽,已經(jīng)出現(xiàn)6場平局,平局率達(dá)到40%。

這一比例顯著高于世界杯小組賽常見的平局水平,也對AI陣營形成了系統(tǒng)性考驗。在6場平局中,12大AI合計只有4次命中賽果:騰訊混元、Kimi、訊飛星火命中加拿大1-1波黑,階躍星辰命中比利時1-1埃及。

換句話說,AI在平局場景中的命中率,明顯低于它們在非平局比賽中的表現(xiàn)。

強(qiáng)弱分明的比賽里,AI表現(xiàn)并不差。例如德國7-1庫拉索、瑞典5-1突尼斯等比賽,多數(shù)模型甚至能夠全部命中勝負(fù)方向。但一旦比賽進(jìn)入平局、低比分、門將發(fā)揮、臨場失誤和節(jié)奏拉扯共同作用的場景,模型就很容易失準(zhǔn)。

這并非某一家模型的個體問題,而是多個模型共同暴露出的難題。

為什么大模型不擅長預(yù)測平局?一個可能的解釋是,足球語料天然偏向“勝負(fù)敘事”。賽前分析、賽后報道、球迷討論、歷史戰(zhàn)績數(shù)據(jù)庫,往往圍繞“誰贏了”“誰更強(qiáng)”“誰爆冷”展開。平局在真實比賽中并不罕見,卻很少成為敘事中心。

另一個可能的解釋,是推理框架的慣性。當(dāng)模型被要求預(yù)測一場比賽時,它往往會從排名、身價、陣容、歷史交鋒等維度出發(fā),最終回答“哪一方更有優(yōu)勢”。這更接近一個排序問題。

但平局不是簡單的排序結(jié)果。它意味著兩支球隊在90分鐘里的機(jī)會、失誤、節(jié)奏、心理和偶然性,最終抵消了紙面差距。這要求模型不僅判斷誰更強(qiáng),還要判斷優(yōu)勢能否轉(zhuǎn)化為勝利。后者是更復(fù)雜的概率校準(zhǔn)問題。

這正是“世界杯預(yù)測人機(jī)大戰(zhàn)”作為公開實驗的價值所在:它不只展示AI何時正確,也暴露AI在哪些場景下最容易失準(zhǔn),而且這種暴露是持續(xù)的、可追蹤的、不可回避的。

AI需要一個世界杯

過去幾年,中國AI行業(yè)的能力驗證主要依賴三類方式:基準(zhǔn)測試、產(chǎn)品數(shù)據(jù)和事件營銷。

基準(zhǔn)測試可以給出標(biāo)準(zhǔn)化分?jǐn)?shù),但離真實使用場景較遠(yuǎn);產(chǎn)品數(shù)據(jù)能體現(xiàn)用戶規(guī)模和調(diào)用量,卻難以橫向比較;事件營銷容易形成傳播爆點(diǎn),但往往只有一次性結(jié)論。

世界杯提供了一種完全不同的驗證框架:真實場景、統(tǒng)一題面、持續(xù)驗證、公開結(jié)果、全民參與。

104場比賽,每一場都是一道新題;每一道題都有確定答案;所有參與者面對同一張試卷;每一次判斷都會在終場哨響后被檢驗。這種場景對AI行業(yè)來說極其稀缺。

這也是聯(lián)想集團(tuán)選擇在世界杯上發(fā)起“人機(jī)大戰(zhàn)”的深層邏輯。

“世界杯預(yù)測人機(jī)大戰(zhàn)”面向消費(fèi)者、球迷和普通公眾。很多人可能并不關(guān)心模型參數(shù)、推理成本和評測分?jǐn)?shù),但他們一定能理解“這場球誰會贏”“AI猜得準(zhǔn)不準(zhǔn)”。

讓12大AI在世界杯賽場上接受公開驗證,讓AI的能力和局限被更廣泛的人看到、討論、參與,這件事的價值正在隨著賽事推進(jìn)不斷放大。

Kimi的預(yù)測報告很專業(yè),通義千問的環(huán)境數(shù)據(jù)很新穎,百度文心暫時領(lǐng)跑,聯(lián)想天禧AI處于領(lǐng)先梯隊。它們各有特點(diǎn)。但這些差異,只有在同一張答卷上,才真正能被看見。

當(dāng)很多AI公司都在各自舞臺上展示能力時,聯(lián)想做了一件更接近“基礎(chǔ)設(shè)施”的事:搭建一個共同舞臺,讓賽果來當(dāng)裁判。

89場比賽還在后面

15場,只完成了全部賽程的一小部分。小組賽還有大量比賽,淘汰賽也將在后續(xù)展開。比賽形態(tài)會從“強(qiáng)弱對話”,逐漸轉(zhuǎn)向“強(qiáng)強(qiáng)對決”和“生死戰(zhàn)”。這些新場景中,AI的表現(xiàn)是否會發(fā)生變化?平局率是否會回歸常見水平?當(dāng)前排名是否會被改寫?

現(xiàn)在下最終結(jié)論還為時過早。

但15場數(shù)據(jù)已經(jīng)足夠說明一件事:AI行業(yè)需要的不只是更大的參數(shù)、更多的Agent和更復(fù)雜的數(shù)據(jù)維度,也需要一個真實、持續(xù)、公開的驗證場景,讓能力被看見,也讓局限被看見。

世界杯恰好是這樣一個場景。

而聯(lián)想集團(tuán)聯(lián)合咪咕,搭建了這個讓12大AI同場接受檢驗的平臺。

這可能是“世界杯預(yù)測人機(jī)大戰(zhàn)”進(jìn)行到15場后,給中國AI行業(yè)留下的最重要啟示。

打開咪咕視頻APP搜索人機(jī)大戰(zhàn),登錄聯(lián)想天禧AI相關(guān)入口,即可參與世界杯預(yù)測人機(jī)大戰(zhàn)。6月24日起,咪咕視頻與聯(lián)想集團(tuán)聯(lián)合出品的《人機(jī)大戰(zhàn):誰是世界杯預(yù)言家》將在咪咕視頻正式開播,敬請期待。

足球免費(fèi)觀看_足球高清在線
回到頂部