記者 俞陶然
上海人工智能實(shí)驗(yàn)室昨天公布了多名“AI考生”參加今年中國(guó)高考的成績(jī),阿里Qwen2-72B、GPT-4o和“書(shū)生·浦語(yǔ)”2.0文曲星(InternLM2-20BWQX)成為前三名,得分率均超過(guò)70%。大部分“AI考生”在語(yǔ)文、英語(yǔ)科目上表現(xiàn)良好,但數(shù)學(xué)成績(jī)不盡如人意。其中,“書(shū)生·浦語(yǔ)”2.0文曲星獲得數(shù)學(xué)最高分,超越包括GPT-4o在內(nèi)的其他大模型。
大模型數(shù)學(xué)成績(jī)不及格
今年高考結(jié)束后,司南評(píng)測(cè)體系OpenCompass選取6個(gè)開(kāi)源大模型和GPT-4o,開(kāi)展了語(yǔ)文、數(shù)學(xué)、英語(yǔ)全卷能力測(cè)試,評(píng)測(cè)采用全國(guó)新課標(biāo)I卷。成績(jī)由具有高考評(píng)卷經(jīng)驗(yàn)的教師人工評(píng)判,接近真實(shí)閱卷的標(biāo)準(zhǔn)。
這六個(gè)大模型分別是阿里巴巴開(kāi)源的Qwen2-57B和Qwen2-72B、上海人工智能實(shí)驗(yàn)室開(kāi)源的“書(shū)生·浦語(yǔ)”2.0文曲星、智譜AI開(kāi)源的GLM-4-9B、零一萬(wàn)物開(kāi)源的Yi-1.5-34B、法國(guó)企業(yè)Mistral開(kāi)源的Mixtral 8x22B。由于無(wú)法確定閉源大模型的更新時(shí)間,為公平起見(jiàn),此次評(píng)測(cè)沒(méi)有納入商用閉源模型,只引入GPT-4o作為評(píng)測(cè)參考。
因?yàn)槭軠y(cè)的開(kāi)源模型均為大語(yǔ)言模型,在評(píng)測(cè)過(guò)程中,僅輸入文字題干(數(shù)學(xué)包含2道帶圖試題),英語(yǔ)聽(tīng)力部分(分值30分)不納入此次評(píng)測(cè)。結(jié)果,阿里Qwen2-72B以總分303分排名第一,其中語(yǔ)文124分(滿(mǎn)分150分),數(shù)學(xué)70分(滿(mǎn)分150分),英語(yǔ)109分(滿(mǎn)分120分);GPT-4o以總分296分位居第二,其中語(yǔ)文111.5分,數(shù)學(xué)73分,英語(yǔ)111.5分;“書(shū)生·浦語(yǔ)”2.0文曲星以0.5分之差排名第三,其中語(yǔ)文112分,數(shù)學(xué)75分,英語(yǔ)108.5分。
可以看到,“AI考生”前三名都擅長(zhǎng)文科,語(yǔ)文和英語(yǔ)成績(jī)優(yōu)良,而數(shù)學(xué)推理能力有待提升,高考數(shù)學(xué)成績(jī)都不及格。目前,數(shù)學(xué)是所有大模型的短板,得益于上海人工智能實(shí)驗(yàn)室在數(shù)學(xué)推理上的投入,“書(shū)生·浦語(yǔ)”2.0文曲星在高考中得到75分,在所有受測(cè)模型中位居榜首,但仍存在較大提升空間。
閱卷老師點(diǎn)評(píng)考生表現(xiàn)
與以往多采用高考客觀題評(píng)測(cè)大模型的方式不同,在此次測(cè)試中,研究團(tuán)隊(duì)使用了語(yǔ)數(shù)外三科的全卷試題,既有選擇、填空等“答案唯一性”題目,也包括簡(jiǎn)答、閱讀理解、作文等主觀題,在更接近真實(shí)高考的環(huán)境中測(cè)試模型的能力。
為貼近高考評(píng)卷模式,研究團(tuán)隊(duì)邀請(qǐng)多位有閱卷經(jīng)驗(yàn)的高中教師對(duì)主觀題答案評(píng)分,每份考卷至少由3人分別打分。遇到評(píng)分懸殊的情況,老師們會(huì)進(jìn)行復(fù)核,盡量做到評(píng)分公正,為人工智能學(xué)術(shù)界和產(chǎn)業(yè)界提供更有價(jià)值的參考指標(biāo)。與真實(shí)的高考一樣,所有大模型答卷均進(jìn)行了匿名處理,避免閱卷教師產(chǎn)生“先入為主”的觀念。
對(duì)于這些“AI考生”的語(yǔ)數(shù)外水平,老師們給出了中肯的評(píng)價(jià)——語(yǔ)文評(píng)卷顯示,大模型的現(xiàn)代文閱讀理解能力普遍較強(qiáng),但不同模型的文言文閱讀理解能力差距較大。大模型寫(xiě)的作文更像問(wèn)答題,雖有針對(duì)性,但缺乏修飾,幾乎不用人類(lèi)考生都會(huì)使用的舉例論證、引用論證、名人名言等手法。多數(shù)大模型不理解“本體”“喻體”“暗喻”等語(yǔ)文概念。對(duì)于文章中的一些“潛臺(tái)詞”,大模型也無(wú)法完全理解。數(shù)學(xué)評(píng)卷顯示,大模型的主觀題回答相對(duì)凌亂,解題過(guò)程有迷惑性,甚至出現(xiàn)過(guò)程錯(cuò)誤但得到正確答案的情況。大模型的公式記憶能力很強(qiáng),但無(wú)法在解題過(guò)程中靈活運(yùn)用。大模型的英語(yǔ)整體表現(xiàn)良好,大模型寫(xiě)的英語(yǔ)作文普遍存在因超出字?jǐn)?shù)限制被扣分的情況,而人類(lèi)考生大多因?yàn)樽謹(jǐn)?shù)不夠被扣分。