文:馮戀閣 來源:21世紀經(jīng)濟報道(dào)
生成(chéng)式人工智能(néng)技術不斷發(fā)展,訓練數據來源成(chéng)爲人們最關注的問題之一。
去年11月,國(guó)家數據局等17部門聯合印發(fā)的《“數據要素×”三年行動計劃(2024—2026年)》提到,要提升數據供給水平、建設高質量語料庫和基礎科學(xué)數據庫。
近日, 第七屆數字中國(guó)建設峰會(huì)首發(fā)研究成(chéng)果新聞發(fā)布會(huì)在福州舉行。會(huì)議現場發(fā)布了多份由數字中國(guó)研究院(福建)、同濟大學(xué)、阿裡(lǐ)、高德等單位聯合編制的多本數據要素行業白皮書。其中,《大模型訓練數據白皮書》(以下簡稱“《白皮書》”)分析了當前大模型研發(fā)面(miàn)臨的标準制定、質量評估、總量不足等問題,并嘗試提出建議。
“我們期望通過(guò)推動數據要素市場建設解決大模型研發(fā)面(miàn)臨的數據瓶頸,繼而發(fā)揮大模型對(duì)于數據的處理和分析能(néng)力,創造更大的生産力。”數字中國(guó)研究院(福建)副院長(cháng)邬群勇在發(fā)布會(huì)現場指出。
高質量數據難題待解
在生成(chéng)式人工智能(néng)時代,大模型表現與訓練數據質量息息相關。高質量數據模型訓練和應用過(guò)程中有著(zhe)不可替代的重要性。
高質量數據并非用之不竭的資源。一項來自EpochAlResearch團隊的研究就表明,高質量的語言數據存量將(jiāng)在2026年耗盡。
要解困,首先需要明白什麼(me)是高質量數據。
由于技術更叠節奏、産業發(fā)展速度都(dōu)很快,人們對(duì)大模型表現和功能(néng)的預期也在不斷變化。《白皮書》指出,當前數據質量高低的判定标準主要取決于模型的應用目的,數據類型會(huì)根據模型的發(fā)展階段“因時而動”、根據技術人員的理解判斷“因人而異”、根據模型的訓練效果“因效而定”。
因此,對(duì)質量的比較隻能(néng)在同類型語料中展開(kāi)。《白皮書》指出,這(zhè)類比較往往需要從質量、規模、多樣(yàng)性三個維度出發(fā)。
質量方面(miàn),被(bèi)視爲“高質量”通常是因爲其信息已經(jīng)通過(guò)了有用性或質量篩選。比如新聞、論文數據等會(huì)經(jīng)由專業标準篩選,社交媒體上的内容則可能(néng)由用戶互動積極性篩選。如果不确定來源,則可以通過(guò)少量樣(yàng)本人工評價判斷其可讀性、幫助性、安全性等指标的質量。
數據規模算是比較老生常談的問題。在Scaling laws(規模法則,也稱标度律)還(hái)相當有說服力的當下,當模型的參數或計算量按比例擴大時,模型性能(néng)也與之成(chéng)比例提升。“不單純是語料規模越大越好(hǎo),而是高信息密度的語料規模越大越好(hǎo)。”《白皮書》中進(jìn)一步提示。
同類型語料中的多樣(yàng)性也是值得關注的問題。《白皮書》認爲,保證多樣(yàng)性將(jiāng)有效減小模型可能(néng)表現出的偏見或系統性不平等。
判斷标準确定,“數據從哪來”是下一步要面(miàn)對(duì)的問題。
“首先是數據開(kāi)放程度有待進(jìn)一步加強。雖然數據開(kāi)放共享的理念得到推廣,但實際可用的開(kāi)放數據與市場需求仍然存在較大缺口。”邬群勇在接受21世紀經(jīng)濟報道(dào)記者采訪時指出,雖然一些公共平台開(kāi)放了數據獲取的API,但其數據服務伴随嚴格的限制,比如限制訪問量,附加收費等。
此外,受限于價值評估、質量判斷等配套規則、标準并未完善,數據價值被(bèi)确認,進(jìn)而走向(xiàng)流通利用之路也面(miàn)臨一定挑戰。
針對(duì)高質量數據供給難題,現行方案側重于進(jìn)一步構建行之有效的數據開(kāi)放機制,鼓勵行業數據、公共數據等充分流轉應用。
合成(chéng)數據或成(chéng)新路徑
事(shì)實上,建立數據開(kāi)放機制,在訓練過(guò)程中引入合成(chéng)數據或許也是一條“開(kāi)源”的路徑。
合成(chéng)數據是通過(guò)算法和數學(xué)模型創建的數據。通過(guò)建模真實數據的分布,然後(hòu)在該分布上進(jìn)行采樣(yàng),創建出新數據集,能(néng)夠讓合成(chéng)數據模拟出真實數據中的統計模式和關系。在大模型訓練中,合成(chéng)數據能(néng)夠發(fā)揮補充或替代真實數據的作用。
據媒體報道(dào),OpenAI、Anthropic、DeepMind等公司都(dōu)曾表态將(jiāng)探索在訓練中引入合成(chéng)數據的可能(néng)性。《白皮書》也提到,OpenAI的Sora就用到了大量由遊戲引擎合成(chéng)的視頻數據作爲訓練集。
《白皮書》認爲,合成(chéng)數據解決了部分類型的真實世界數據難以觀測的問題,拓展了訓練數據的多樣(yàng)性。比如,一些“邊緣情況”(如極端天氣、罕見病)或者真實世界中的“潛在隐患”(如金融詐騙等安全風險)數據的生成(chéng)可以彌補因樣(yàng)本分布不均衡導緻的客觀限制。
邬群勇認爲,合成(chéng)數據可以提高模型訓練的效率。一方面(miàn),合成(chéng)數據可以根據特定的需求進(jìn)行設計,比真實數據集更廣泛,可确保滿足特定的數據質量标準。另一方面(miàn),這(zhè)類數據可以快速生成(chéng),幾乎不需要人類标注,且不需要進(jìn)行繁瑣的數據清洗和預處理工作,可提高數據獲取效率。
合成(chéng)數據生成(chéng)過(guò)程可能(néng)存在偏差或噪聲,有觀點認爲數據的質量和真實性無法完全模拟客觀世界。但在邬群勇看來,部分噪聲數據對(duì)模型訓練來說是必需的,有助于提高模型的魯棒性。
對(duì)于飽受質疑的隐私安全顧慮,《白皮書》提到,合成(chéng)數據可以替代個人特征數據,有助于用戶隐私保護,解決數據獲取合規性的問題。當前,類似 “猜你喜歡”功能(néng)的實現往往需要大量用戶數據的參與。大模型理解力逐漸提高的當下,一方面(miàn),可以用合成(chéng)數據替代用戶數據訓練模型;另一方面(miàn),用戶的需求也可以通過(guò)與模型的自然語言交流被(bèi)系統理解。“整個過(guò)程在提升推薦匹配度的同時,還(hái)可以降低推薦模型對(duì)個人特征數據的依賴。”《白皮書》指出。
在可及的未來,合成(chéng)數據將(jiāng)有望在幾大場景發(fā)揮作用。
首先,合成(chéng)數據可應用于多模态數據的生成(chéng)。利用模拟器生成(chéng)的多模态場景數據還(hái)廣泛應用于具身智能(néng)機器人、自動駕駛、AIforScience等場景的訓練。
其次是高價值領域知識的生成(chéng)。合成(chéng)數據能(néng)通過(guò)對(duì)現有數據的深加工,將(jiāng)之前不能(néng)被(bèi)用于訓練的數據轉化爲可用。例如工業制造領域,利用合成(chéng)數據,可以把生産、制造等工藝流程相關的原始數據,結合行業知識圖譜,轉化爲可供大模型學(xué)習的工業語料,以緩解行業語料短缺的問題。
據咨詢公司Gartner預測,到2030年,合成(chéng)數據將(jiāng)徹底取代真實數據,成(chéng)爲AI模型所使用的數據的主要來源。美國(guó)AI研究機構Cognilytica數據顯示,2021年合成(chéng)數據市場規模大概在1.1億美元,到2027年將(jiāng)達到11.5億美元。