本報記者 吳曉璐
ChatGPT一經問世便在人工智能應用領域掀起了一陣新的浪潮并引起了全球轟動,僅僅兩個月內其注冊用戶就突破1億。
“ChatGPT的主要魅力在于,它利用從互聯(lián)網獲取的海量訓練數據開展深度學習和強化學習,可以給用戶帶來全新的‘人機對話’體驗。海量訓練數據可謂是維系ChatGPT進化的核心要素之一。”中國證監(jiān)會科技監(jiān)管局局長姚前在《中國金融》雜志撰文表示。
姚前表示,有研究預測,按照目前的發(fā)展速度,到2026年ChatGPT類大模型的訓練將耗盡互聯(lián)網上的可用文本數據,屆時將沒有新的訓練數據可供使用。因此,算力瓶頸之外,訓練數據將成為大模型產業(yè)化的最大掣肘之一。從更深層次考慮,大模型在訓練數據方面還存在各種治理問題,比如數據采集標注費時費力成本高、數據質量較難保障、數據多樣化不足難以覆蓋長尾和邊緣案例、特定數據在獲取與使用分享等方面存在隱私保護、數據偏見等問題。由此可見,人工智能產業(yè)的高質量發(fā)展離不開高質量的訓練數據,訓練數據的安全合規(guī)使用是大模型人工智能長期健康發(fā)展的基礎。
姚前認為,數字經濟高質量發(fā)展的關鍵是數據,抓住高質量數據這一“牛鼻子”,就能有效應對以數據為核心的科技創(chuàng)新和產業(yè)變革。當前AIGC(AI Generated Content,人工智能自動生成內容)和ChatGPT充分展現(xiàn)了高質量訓練數據在產業(yè)價值創(chuàng)造中疊加倍增作用,大模型訓練數據及其輸出結果將會是未來社會和生產中的一種重要的數據資產,其有序流轉并合規(guī)使用也是發(fā)展數字經濟的應有之義。通過合理的機制理順市場中各參與方的數據權益關系和分配格局,并加強訓練數據的依法合規(guī)監(jiān)管,是促進大模型人工智能產業(yè)健康發(fā)展的關鍵。
為此,姚前提出三點建議:
一是重點發(fā)展基于AIGC技術的合成數據產業(yè)。以更高效率、更低成本、更高質量為數據要素市場“增量擴容”,助力打造面向人工智能未來發(fā)展的數據優(yōu)勢。在強化數據要素優(yōu)質供給方面,應統(tǒng)籌兼顧自立自強和對外開放。可考慮對Wikipedia、Reddit等特定數據源建立過濾后的境內鏡像站點,供國內數據處理者使用。
二是構建大模型訓練數據的監(jiān)管體系。國家相關部門應對大模型訓練數據的處理和使用標準進行統(tǒng)一規(guī)范;建立數據托管機制,對數據托管方進行約束,要求數據托管方按照監(jiān)管機構的規(guī)定對數據來源、處理結果以及使用去向等進行監(jiān)測,從而使得模型的輸入、輸出結果符合監(jiān)管要求。
三是探索基于可信機構或基于可信技術的數據托管方式。數據托管機構可以由相關機構組建數據托管行業(yè)聯(lián)盟,以共建共享的方式建設;亦可利用區(qū)塊鏈技術,基于聯(lián)盟鏈或有管理的公鏈,完善源端數據治理機制,實現(xiàn)數據的鏈上托管、確權、交易、流轉與權益分配。
(編輯 張偉)
18:31 | 長周期考核提升險資投資穩(wěn)定性和積... |
11:47 | 西部創(chuàng)業(yè)預計上半年凈利潤同比增長... |
11:11 | 上證指數刷新9個月新高 多因素支撐... |
11:11 | 穩(wěn)定幣概念熱度持續(xù)升溫 行業(yè)迎來... |
11:11 | 一汽解放場景化落地與生態(tài)協(xié)同 新... |
11:10 | 多舉措應對經營壓力 瓦軸B預計上... |
10:45 | 金健米業(yè)發(fā)力面制品及休閑食品 上... |
10:43 | 景區(qū)游客接待量增長 桂林旅游預計2... |
10:36 | 內生發(fā)展及外延并購共驅 重藥控股... |
10:36 | 仙琚制藥布局呼吸系統(tǒng)用藥 噻托溴... |
10:35 | 一鳴食品子公司獲增資1.2億元 引入... |
10:34 | 金田股份預計上半年凈利潤達3.4億... |
版權所有證券日報網
互聯(lián)網新聞信息服務許可證 10120180014增值電信業(yè)務經營許可證B2-20181903
京公網安備 11010202007567號京ICP備17054264號
證券日報網所載文章、數據僅供參考,使用前務請仔細閱讀法律申明,風險自負。
證券日報社電話:010-83251700網站電話:010-83251800 網站傳真:010-83251801電子郵件:xmtzx@zqrb.net
掃一掃,即可下載
掃一掃,加關注
掃一掃,加關注