“數據之於大模子,就像石油之於汽車。原油隻有經過一系列復雜的過程煉化成汽油后,才能供汽車利用。同樣,海量原始數據需要經過‘煉化’构成高質量數據集,才能帮力大模子精准學習數據特征與規律,无效提拔其對分歧場景和任務的適應能力。”中國消息通信研究院副院長魏亮告訴記者,近期發布的深度求索系列模子訓練中,大量利用了高質量推理數據集,凸顯了高質量數據的主要性,同樣也需高質量數據集的支撐。”。
人平易近網成都5月20日電 (歐陽易佳)5月20日,國際大壩委員會第28屆大會暨第93屆年會“數智賦能水庫大壩建設和運維”專題研討會正在四川省成都会舉辦。與會專家圍繞大壩正在線監控、智能診斷饋控、智能溫控、人工智能技術應用、無人碾壓技術等議題開展交换。?。
人 平易近 網 股 份 有 限 公 司 版 權 所 有 ,未 經 書 面 授 權 禁 止 使 用?。
“隨著基礎模子開源態勢的构成,各朴直在算力和模子算法層面的差距正正在不斷收窄,數據要素價值愈加凸顯,已成為人工智能競爭的焦点領域。”國務院國資委規劃發展局副局長胡武婕暗示,要推動行業高質量數據集加快匯聚共享,為人工智能產業供给充脚“養分”,從而持續進行分歧場景的訓練優化,推動基礎模子正在千行百業落地應用。
4月30日,《高質量數據集建設指南(收罗意見稿)》發布。全國數據標准化技術委員會提出,將強化標准引領,分三類建設高質量數據集:一類為“通識數據集”,包含面向社會公眾、無需專業布景即可理解的通用知識,次要用於支撐通用模子落地應用﹔一類為“行業通識數據集”,包含面向行業從業人員、需要必然專業布景才能理解的行業領域通用知識,次要用於支撐行業模子落地應用﹔一類為“行業專識數據集”,包含面向特定業務場景相關人員、需要較深的專業布景才能理解的行業領域專業知識,次要用於支撐業務場景模子落地應用。
目前,高質量數據集建設還存正在不少挑戰。魏亮說,一方面,行業大模子對數據的需求多樣,分歧业業部門對模子場景數據的需求各不不异,添加了數據處理和办理的復雜度。外行業大模子的實際建設中,對於構建和採買的數據沒有統一权衡標准,分歧业業、分歧數據源的數據完整性和准確性可能參差不齊,影響了大模子的訓練结果和預測准確性,形成訓練資源浪費。
人平易近日報社概況關於人平易近網報社聘请聘请英才廣告服務合做加盟版權服務數據服務網坐聲明網坐律師消息保護聯系我們。
建設高質量數據集,有關方面正在積極行動。國家數據局等17部門聯合印發的《“數據要素×”三年行動計劃(2024—2026年)》提出,“推動科研機構、打制高質量人工智能大模子訓練數據集”。第八屆數字中國建設峰會上,國務院國資委發布首批10余個行業、30項央企人工智能行業高質量數據集,涵蓋了電網調度AI負荷預測數據集、核電SPV設備健康診斷、運行異常及毛病預測數據集、金融大模子數據集等。
國家數據局副局長夏冰暗示,數據集的質效提拔是人工智能賦能實體經濟的“催化劑”,下一步,國家數據局將構建部際聯通、央地協同的工做機制,推動高質量數據集標准體系研究,促進數據、技術、場景對接,構建多元協同的數據標注產業生態,夯實人工智能發展數據根底。