高質量數據是AI大模型訓練與應用的基礎,更是企業(yè)向AI轉型升級的 “燃料”。然而,眾多企業(yè)在開發(fā)AI應用過程中,卻因大模型難以讀懂非結構化數據而面臨困境。
能否讓更多企業(yè)級用戶用上一款更趁手的數據工具,從而實現(xiàn)AI-Ready數據自由?
近日,OpenDataLab和釘釘正基于MinerU,推出一款面向企業(yè)用戶的文檔解析工具——DLU(Document Language Understanding),共同助力企業(yè)破解AI-Ready數據難題,從而降低行業(yè)大模型訓練及AI應用開發(fā)門檻,加速AI技術在各行業(yè)的規(guī)?;涞?。
MinerU是上海人工智能實驗室(上海AI實驗室)OpenDataLab推出的智能文檔解析引擎,因精準解析能力及廣泛兼容性深受用戶青睞,在GitHub上已累計獲得超4萬星標。
上海AI實驗室作為國際級人工智能新型科研機構,在大模型、數據智能等方向具備深厚的技術積累。其自主研發(fā)的OpenDataLab平臺為國內領先的人工智能大模型數據平臺,擁有7700余個開源精標數據集,迄今已為超10萬用戶提供了200余萬次數據獲取服務。近期更新的MinerU2.0實現(xiàn)了解析速度和精度雙提升,甚至以0.98B的參數達成性能比肩72B的主流大模型。
作為阿里巴巴集團旗下的企業(yè)級智能移動辦公平臺,釘釘擁有豐富的文檔產品和廣闊的企業(yè)用戶基礎。釘釘文檔、AI表格等產品此前已深度集成MinerU能力,并通過開放平臺向生態(tài)開發(fā)者開放文檔解析功能,為DLU的聯(lián)合研發(fā)提供了扎實的技術與場景基礎。
基于MinerU打造的DLU將于近期開源,其具備良好的文件格式兼容性,深層次的內容理解與精準的結構化輸出能力。DLU不僅支持主流的Office文檔、PDF、Markdown及代碼文件,還涵蓋釘釘自有的文檔、表格與AI表格格式;并支持提取純文本內容,精準解析圖表、公式、插圖乃至專業(yè)領域的化學分子式等復雜視覺元素,將其有效轉換為適合大模型訓練的高質量語料。
接下來,DLU還將借助釘釘在企業(yè)服務場景上優(yōu)勢,深度融入辦公協(xié)同生態(tài),支持用戶在同一平臺內完成從文檔創(chuàng)建、解析提取、知識庫管理、數據標注到定制化模型訓練的全流程閉環(huán),提升AI應用開發(fā)與日常辦公效率。
上海人工智能實驗室青年科學家、OpenDataLab/MinerU開源項目創(chuàng)始人何聰輝表示:“MinerU擁有廣泛的用戶基礎,我們希望進一步拓展其在企業(yè)場景中的應用,并充分發(fā)揮OpenDataLab平臺的作用,與合作伙伴共同打造‘數據工具中的PyTorch’,助力更多企業(yè)級用戶實現(xiàn)AI-Ready數據的自由。”
釘釘CTO朱鴻表示:“開源DLU,能有效解決企業(yè)在AI時代面臨的數據準備難題,筑牢智能化轉型根基。釘釘正積極構建AI新生態(tài),期待攜手更多技術伙伴與行業(yè)力量,共同為千行百業(yè)的數字化轉型與智能化升級提供強勁支撐”。
申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!