7月24日,國內權威第三方評測機構 SuperCLUE 發(fā)布中文原生工業(yè)大模型測評基準 SC-Industry(SuperCLUE-Industry)最新榜單。北電數(shù)智驕陽·工業(yè)大模型以83.44 的總分綜合排名第一。
圖注:SuperCLUE 發(fā)布工業(yè)大模型能力象限
SuperCLUE 是行業(yè)權威的通用大模型綜合性測評基準,專注于中文大模型測評;SC-Industry立足中文語義環(huán)境與工業(yè)場景,充分貼合國內制造業(yè)的術語體系與應用需求,全面地衡量工業(yè)大模型除知識庫之外解決行業(yè)具體問題的應用能力,兼具工業(yè)領域模型的通用性與可拓展性。
SC-Industry評測從基礎能力和應用能力兩大維度出發(fā),聚焦工業(yè)常規(guī)問答、工業(yè)數(shù)據(jù)分析、工業(yè)文檔問答、工業(yè)智能體Agent、工業(yè)理解計算、工業(yè)代碼生成六大能力,對大模型進行效果評估。通過構建專用測評集,SC-Industry結合評估流程、評估標準、評分規(guī)則,將文本輸入送入超級模型,并對每一維度的評估結果與人類一致性進行分析。
根據(jù)榜單測評結果,驕陽·工業(yè)大模型在整體總分第一之外,“應用能力”綜合測評結果獲90.07分,同樣位居榜首。
● 在“工業(yè)數(shù)據(jù)分析” 細分維度上,「驕陽」獲得90.38的最高分,能夠對表格類數(shù)據(jù)進行出色分析并提供深刻洞察。
● 在“工業(yè)智能體Agent”上,驕陽·工業(yè)大模型以89.97分領跑,其在一定的工業(yè)環(huán)境中展現(xiàn)出強大的自主或半自主執(zhí)行任務能力,能有效做出決策,并與其他系統(tǒng)進行交互以優(yōu)化或輔助工業(yè)流程,特別是在多輪任務規(guī)劃與工具調用中表現(xiàn)卓越,這對于復雜工業(yè)流程的落地至關重要。
SuperCLUE在報告中指出,產業(yè)級應用能力成為新分水嶺。驕陽·工業(yè)大模型憑借在工業(yè)數(shù)據(jù)分析上的強勢表現(xiàn),得到了業(yè)界領先的 90.07 分,首次登頂。這一方面說明在工業(yè)任務能力方面,國產模型正在突圍;另一方面表明在基礎能力趨同的情況下,工業(yè)數(shù)據(jù)分析與智能體表現(xiàn)將成為拉開差距的關鍵。
北電數(shù)智以產業(yè)協(xié)同、技術突破雙輪驅動破局,一方面推動建立工業(yè)數(shù)據(jù)標準和開放協(xié)議體系,運用可信數(shù)據(jù)空間技術實現(xiàn)數(shù)據(jù)的安全共享;另一方面重點研發(fā)場景化微調數(shù)據(jù)生成和復雜任務強化學習等核心技術,有效提升模型的行業(yè)認知能力。目前,驕陽·工業(yè)大模型已成功構建“精準的垂類認知、高質量數(shù)據(jù)治理體系、嚴格的安全合規(guī)管控機制”三大優(yōu)勢,展現(xiàn)了北電數(shù)智在垂類大模型領域的階段性研發(fā)成果,也體現(xiàn)了依托北京電控深厚工業(yè)基因的差異化競爭能力。
在即將到來的2025 WAIC世界人工智能大會上,北電數(shù)智將正式發(fā)布驕陽·工業(yè)大模型,并聚焦工業(yè)企業(yè)最關注的“AI+生產、AI+產品、AI+運營、AI+基礎設施”等核心業(yè)務場景,分享北電數(shù)智的創(chuàng)新能力和標桿實踐,敬請關注。
申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!