稍微留意下近期的新聞,“趕超GPT-4”正在成為國(guó)產(chǎn)大模型的新熱點(diǎn)。
百度文心一言、商湯日日新以及阿里云剛剛發(fā)布的通義千問(wèn)2.5,均已邁入“全面趕超GPT-4”陣營(yíng)。
把時(shí)間線稍微拉長(zhǎng)一些的話,過(guò)去大半年時(shí)間里,“超越GPT-4”的消息可謂屢見(jiàn)不鮮,即使在報(bào)道中刻意加上了多項(xiàng)基準(zhǔn)、部分指標(biāo)等前綴,依然賺足了眼球,成為國(guó)產(chǎn)大模型佐證自身能力的有力指標(biāo)。
簡(jiǎn)單做個(gè)復(fù)盤的話,國(guó)產(chǎn)大模型對(duì)GPT-4的追趕已經(jīng)進(jìn)行了400多天,其中“趕超進(jìn)程”可以粗分為三個(gè)階段。
第一階段:部分性能超越GPT-4
2023年3月14日,OpenAI正式推出了GPT-4,彼時(shí)大多數(shù)國(guó)產(chǎn)大模型還未開(kāi)放,少數(shù)內(nèi)測(cè)大模型的比較對(duì)象還是GPT-3。作為業(yè)界標(biāo)桿的GPT-4,就像是科幻照進(jìn)了現(xiàn)實(shí),被無(wú)數(shù)人捧上神壇。
但在短短半年后,GPT-4就出現(xiàn)在了國(guó)產(chǎn)大模型廠商的比較名單里。

2023年8月底,商湯科技對(duì)外公布了一則新進(jìn)展:擁有1230億個(gè)參數(shù)的“書生·浦語(yǔ)”,在全球51個(gè)知名評(píng)測(cè)集共計(jì)30萬(wàn)道問(wèn)題集合上,測(cè)試成績(jī)排名全球第二,并在綜合考試agieval、知識(shí)問(wèn)答commonsenseqa、閱讀理解和推理的十項(xiàng)評(píng)測(cè)中位列第一,分?jǐn)?shù)超過(guò)風(fēng)頭正盛的GPT-4。
2023年10月17日的“生成未來(lái)”發(fā)布會(huì)上,百度正式發(fā)布了文心大模型4.0版本,李彥宏在現(xiàn)場(chǎng)依次演示了大模型的理解、生成、邏輯和記憶四大核心能力的特點(diǎn)與應(yīng)用場(chǎng)景。盡管沒(méi)有給出評(píng)測(cè)數(shù)據(jù),李彥宏卻自信地表示:文心大模型4.0的綜合水平,“與GPT-4相比毫不遜色”。
國(guó)產(chǎn)大模型趕超GPT-4的序幕正式拉開(kāi),此后一兩個(gè)月里,不少大模型給了這樣的營(yíng)銷口徑:整體能力已經(jīng)不輸于GPT-3.5,并且在部分性能指標(biāo)上開(kāi)始超越GPT-4。
第二階段:整體性能逼近GPT-4
時(shí)間來(lái)到2024年初,國(guó)內(nèi)的“百模大戰(zhàn)”進(jìn)入收斂期,一些不被資本市場(chǎng)認(rèn)可的大模型,漸漸成了一個(gè)數(shù)字,只有幾家科技大廠和獨(dú)角獸仍活躍在大模型一線。“活下來(lái)”的大模型,勢(shì)必要在能力上證明自己。
綜合性能逼近GPT-4,開(kāi)始成為新的營(yíng)銷話術(shù)。

2024年1月中旬的智譜AI技術(shù)開(kāi)放日上,正式發(fā)布了新一代基座大模型GLM-4。按照智譜AI官方的說(shuō)法:在權(quán)威的英文測(cè)試榜單中,GLM-4已經(jīng)整體逼近GPT-4,平均能達(dá)到GPT-4 90%以上的水平,在個(gè)別項(xiàng)目上表現(xiàn)持平;而在國(guó)內(nèi)企業(yè)更加看重的中文任務(wù)上,GLM-4的表現(xiàn)全面超過(guò)GPT-4。

同樣是在2024年1月,科大訊飛發(fā)布了星火認(rèn)知大模型V3.5,在邏輯推理、語(yǔ)言理解、文本生成、數(shù)學(xué)答題、代碼、多模態(tài)等核心能力均顯著提升,其中語(yǔ)言理解、數(shù)學(xué)能力已經(jīng)超過(guò)GPT-4 Turbo,代碼能力達(dá)到GPT-4 Turbo 96%,多模態(tài)理解達(dá)到GPT-4V 91%。“在中文理解方面,甚至遙遙領(lǐng)先。”

回頭來(lái)看,智譜AI和科大訊飛的營(yíng)銷策略還是有些“保守”,百川智能在同一時(shí)間段發(fā)布的Baichuan 3,對(duì)外表示已經(jīng)在CMMLU、GAOKAO等中文評(píng)測(cè)中超越GPT-4。
第三階段:全面趕超GPT-4 Turbo
2023年11月的OpenAI首屆開(kāi)發(fā)者大會(huì),GPT-4 Turbo可以說(shuō)整個(gè)活動(dòng)的焦點(diǎn),不僅比GPT-4更聰明,文本處理的上限更高,推理的速度更快,價(jià)格也更便宜,國(guó)產(chǎn)大模型隨即迎來(lái)了新的比較對(duì)象。

先是2024年4月份發(fā)布的日日新5.0,擁有6000億參數(shù),并在發(fā)布會(huì)上引用了OpenCompass的評(píng)測(cè)數(shù)據(jù):日日新5.0達(dá)到或超越了GPT-4 Turbo版本,幾乎全方位碾壓了同期發(fā)布的 Llama 3-70B。

再然后就是阿里云剛剛發(fā)布的通義千問(wèn)2.5,根據(jù)媒體報(bào)道中的說(shuō)法:模型性能全面趕超GPT-4-Turbo,成為“地表最強(qiáng)”中文大模型;通義千問(wèn)1100億參數(shù)開(kāi)源模型在多個(gè)基準(zhǔn)測(cè)評(píng)收獲最佳成績(jī),超越Meta的Llama-3-70B,成為開(kāi)源領(lǐng)域最強(qiáng)大模型。

可以篤定的是,日日新5.0和通義千問(wèn)2.5只是個(gè)開(kāi)始,后續(xù)將有更多國(guó)產(chǎn)大模型在能力上超越GPT-4-Turbo。
畢竟科大訊飛早已預(yù)熱了上半年發(fā)布星火認(rèn)知大模型V4.0的消息,將全面對(duì)標(biāo)GPT-4系列;文心一言4.0的發(fā)布已經(jīng)超過(guò)半年,不排除新版本正在準(zhǔn)備中,且大概率會(huì)在性能上再上一個(gè)臺(tái)階……
“跑分”的意義在哪里?
不管是一開(kāi)始的“部分性能超越”,還是現(xiàn)在進(jìn)行中的“全面趕超”,依據(jù)都是第三方評(píng)測(cè)結(jié)果,或者說(shuō)大模型廠商的主觀判斷。比如商湯和阿里云爭(zhēng)相引用的OpenCompass,就是上海人工智能實(shí)驗(yàn)室開(kāi)源的大模型評(píng)測(cè)平臺(tái)。
對(duì)于一些大模型沉迷于刷榜、跑分的現(xiàn)象,上海人工智能實(shí)驗(yàn)室領(lǐng)軍科學(xué)家林達(dá)華教授曾在媒體采訪中直言:通過(guò)題海戰(zhàn)術(shù)提高大模型成績(jī),對(duì)于模型實(shí)際能力的反應(yīng)是失真的,影響了模型研發(fā)團(tuán)隊(duì)的改進(jìn)方向和模型的商業(yè)落地,“高分低能”傷害的是機(jī)構(gòu)本身;榜單上任何具體的名字只是大模型成長(zhǎng)過(guò)程中無(wú)數(shù)次測(cè)試中的一次,一時(shí)的排名高低并不真正反映模型的能力。
何況很多大模型測(cè)試集為了公開(kāi)透明,測(cè)試題目或者提綱都是公開(kāi)的,大模型廠商不難通過(guò)“針對(duì)性的訓(xùn)練”來(lái)提高分?jǐn)?shù)。只要將足夠的的測(cè)試題喂給大模型,在開(kāi)卷考試的機(jī)制下,分?jǐn)?shù)總不會(huì)太低。
也就是說(shuō),分?jǐn)?shù)高并不一定代表大模型的能力強(qiáng)。“跑分”的意義僅僅是讓客戶或開(kāi)發(fā)者對(duì)大模型能力有一個(gè)初步的認(rèn)識(shí),最終的評(píng)估因素永遠(yuǎn)是“能不能解決問(wèn)題”,“能不能在場(chǎng)景中帶來(lái)實(shí)實(shí)在在的生產(chǎn)力”。
特別是在大模型走向落地應(yīng)用的趨勢(shì)下,一味炒作“超越GPT-4”、“跑分第一”,妄顧落地應(yīng)用的實(shí)效,可能會(huì)適得其反。以大模型應(yīng)用中比較常見(jiàn)的財(cái)報(bào)分析為例,如果大模型連一家企業(yè)的財(cái)報(bào)都看不懂,再高的計(jì)算分?jǐn)?shù)也不會(huì)讓客戶信服,反而會(huì)被排除在合作名單外。
而參考中信證券等機(jī)構(gòu)的研究報(bào)告,目前OpenAI的GPT-5正處于紅隊(duì)測(cè)試階段,有望在今年夏天正式發(fā)布,可能在多模態(tài)理解、長(zhǎng)文本輸入、zero-shot學(xué)習(xí)等方面實(shí)現(xiàn)重大突破,且性能將遠(yuǎn)超GPT-4。即使國(guó)產(chǎn)大模型花費(fèi)400多天追平了GPT-4,在相當(dāng)長(zhǎng)一段時(shí)間里,仍將處于追趕的姿態(tài)。
大模型的價(jià)值是解決日常問(wèn)題的生產(chǎn)力工具,趕超GPT-4的階段性升級(jí),可以看作是國(guó)產(chǎn)大模型有序迭代部署、不斷拉近差距的標(biāo)志,切莫像手機(jī)跑分那樣,在過(guò)度營(yíng)銷的作用下,淪為被群嘲的對(duì)象。
申請(qǐng)創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!
文|智能相對(duì)論作者|沈浪知名科學(xué)雜志《Nature》發(fā)表了一篇關(guān)于大模型規(guī)模參數(shù)大小爭(zhēng)議的文章《InAl,isbiggeralwaysbetter?》——AI大模型,越大越好嗎?隨著大模型應(yīng)用走向?qū)嵺`,這一問(wèn)題不可避免地成為了當(dāng)前AI行業(yè)發(fā)展的焦點(diǎn)與爭(zhēng)議。有人認(rèn)為,大模型當(dāng)然是越大越好,參數(shù)越大,性
拋開(kāi)營(yíng)銷戰(zhàn),或許在中國(guó)也可以探索新的大模型應(yīng)用聚合方式、供給方式以及商業(yè)利潤(rùn)分配的方式,對(duì)大模型公司來(lái)說(shuō),這將是一個(gè)新議題。
大模型熱潮涌動(dòng)了一年多后,越來(lái)越多人平復(fù)了激動(dòng)的情緒,開(kāi)始從客觀的視角重新思考大模型的價(jià)值和機(jī)會(huì)。紅杉資本在AlAscent2024的開(kāi)場(chǎng)演講中提到,大模型的創(chuàng)造能力和推理能力,第一次實(shí)現(xiàn)了以類似人類的方式進(jìn)行交互,將支撐起數(shù)十萬(wàn)億美元的市場(chǎng)。然而和AGI的遙遠(yuǎn)夢(mèng)想相比,大模型的創(chuàng)業(yè)者們卻不得不正視
關(guān)注盧松松,會(huì)經(jīng)常給你分享一些我的經(jīng)驗(yàn)和觀點(diǎn)。昨晚,李彥宏內(nèi)部講話稱:AI大模型開(kāi)源意義不大,百度絕不搶開(kāi)發(fā)者飯碗。但你一定要說(shuō)話算話哦,可千萬(wàn)別說(shuō):“我永遠(yuǎn)不做手機(jī),誰(shuí)再敢提做手機(jī)就給我走人”,結(jié)果5年后自己的手機(jī)銷量排名第一。如果百度也這么干的話估計(jì)AI也沒(méi)人用了。李彥宏認(rèn)為:從商業(yè)模式的角度來(lái)
近日,科技巨頭360公司宣布,其全新AI員工“紅衣”正式入職事業(yè)部,標(biāo)志著公司向智能化、自動(dòng)化方向邁出了堅(jiān)實(shí)的一步。據(jù)悉,“紅衣”由360安全大模型支持,具備高度智能化和自主學(xué)習(xí)能力,能夠在多個(gè)領(lǐng)域提供高效、精準(zhǔn)的服務(wù)?!凹t衣”是首位正式入職的數(shù)字安全專家,由360安全大模型支持,在安全運(yùn)營(yíng)工作中,
在數(shù)字化與智能化深度交織的時(shí)代浪潮中,安全的邊界不斷延展,技術(shù)的演進(jìn)正引領(lǐng)產(chǎn)業(yè)邁向新一輪變革。10月24日,以“弈動(dòng)Dynamic·數(shù)智躍遷博弈無(wú)界”為主題的2025TechWorld智慧安全大會(huì)在北京盛大召開(kāi)。來(lái)自國(guó)家部委、院士學(xué)者、高??蒲袡C(jī)構(gòu)和企業(yè)的權(quán)威專家與業(yè)界精英齊聚北京,共議AI安全、數(shù)
2025年10月25日,2025世界青年科學(xué)家峰會(huì)之人工智能(AI)融合創(chuàng)新發(fā)展論壇在浙江溫州成功舉辦。本次論壇由國(guó)際院士科創(chuàng)中心主辦,中國(guó)投資協(xié)會(huì)能源投資專業(yè)委員會(huì)、溫港院士科創(chuàng)中心承辦,中國(guó)電工技術(shù)學(xué)會(huì)、中科先進(jìn)技術(shù)溫州研究院與溫州市電力工程學(xué)會(huì)提供支持,以“甌江論道-AI賦能綠色發(fā)展”為主題,
我覺(jué)得我們AI的目標(biāo)是:從芯片設(shè)計(jì)到軟件生態(tài),全鏈路自主開(kāi)發(fā),建立可控的世界級(jí)AI體系。所以這是俺對(duì)未來(lái)5年中國(guó)AI圈的展望和判斷。(1)2026年,英偉達(dá)造車、國(guó)產(chǎn)開(kāi)車26年國(guó)產(chǎn)芯片會(huì)在推理和垂直場(chǎng)景上發(fā)力。以DeepSeek為代表,大多數(shù)AI大模型會(huì)以軟件彌補(bǔ)硬件不足,所以訓(xùn)練和推理分開(kāi),訓(xùn)練就
文/道哥在深陷“后門”風(fēng)波、接受網(wǎng)信辦問(wèn)詢之后,英偉達(dá)的“特供版”H20芯片,又有了新消息。近日,美國(guó)科技媒體《TheInformation》援引知情人士消息稱,英偉達(dá)已悄然向其關(guān)鍵供應(yīng)商——包括負(fù)責(zé)封裝的安靠科技、供應(yīng)高帶寬內(nèi)存的三星電子、以及承擔(dān)后端處理的富士康發(fā)出指令,要求暫停所有與H20AI
文/二風(fēng)來(lái)源/節(jié)點(diǎn)財(cái)經(jīng)一場(chǎng)關(guān)于“中國(guó)芯”的IPO審議,正把投資者們的目光鎖定在上交所。根據(jù)上交所發(fā)布的公告,上市審核委員會(huì)已定于9月26日審議摩爾線程的科創(chuàng)板首發(fā)申請(qǐng)。作為中國(guó)半導(dǎo)體自主化浪潮中最受矚目的“考生”之一,包括其創(chuàng)始人顯赫的英偉達(dá)背景、高達(dá)80億元人民幣的募資雄心,以及在國(guó)產(chǎn)GPU領(lǐng)域取
技術(shù)的進(jìn)步永無(wú)止境,繼創(chuàng)下TPC-C性能&性價(jià)比雙冠之后,阿里云PolarDB云原生數(shù)據(jù)庫(kù)再度實(shí)現(xiàn)關(guān)鍵突破。9月24日杭州云棲大會(huì)上,阿里云宣布推出全球首款基于CXL(ComputeExpressLink)2.0Switch技術(shù)的PolarDB數(shù)據(jù)庫(kù)專用服務(wù)器。在原有RDMA網(wǎng)絡(luò)的基礎(chǔ)上,Polar
2025年9月24日,在杭州舉辦的云棲大會(huì)上,阿里云正式發(fā)布全新一代服務(wù)器操作系統(tǒng)AlibabaCloudLinux4(簡(jiǎn)稱Alinux4)。Alinux4基于Linux6.6內(nèi)核打造,是首個(gè)全面遵循龍蜥社區(qū)“開(kāi)源生態(tài)合作倡議”規(guī)范的商業(yè)發(fā)行版。它不僅兼容主流開(kāi)源社區(qū)生態(tài),更針對(duì)阿里云最新9代ECS
9月24日,杭州云棲大會(huì)技術(shù)主論壇上,阿里云重磅發(fā)布AI安全護(hù)欄,提供五項(xiàng)核心安全能力,護(hù)航AI安全。一方面為客戶提供融入AIAgent開(kāi)發(fā)全鏈路的原生安全防護(hù),另一方面持續(xù)用AI賦能安全產(chǎn)品智能化升級(jí),打造Agentic-SOC安全運(yùn)營(yíng),提升安全威脅檢測(cè)和響應(yīng)效率。在過(guò)去的一年,AIAgent正在