睿智科技-睿智合創(北京)科技有限公司

文：馮戀閣來源：21世紀經(jīng)濟報道(dào)

生成(chéng)式人工智能(néng)技術不斷發(fā)展，訓練數據來源成(chéng)爲人們最關注的問題之一。

去年11月，國(guó)家數據局等17部門聯合印發(fā)的《“數據要素×”三年行動計劃（2024—2026年）》提到，要提升數據供給水平、建設高質量語料庫和基礎科學(xué)數據庫。

近日，第七屆數字中國(guó)建設峰會(huì)首發(fā)研究成(chéng)果新聞發(fā)布會(huì)在福州舉行。會(huì)議現場發(fā)布了多份由數字中國(guó)研究院（福建）、同濟大學(xué)、阿裡(lǐ)、高德等單位聯合編制的多本數據要素行業白皮書。其中，《大模型訓練數據白皮書》（以下簡稱“《白皮書》”）分析了當前大模型研發(fā)面(miàn)臨的标準制定、質量評估、總量不足等問題，并嘗試提出建議。

“我們期望通過(guò)推動數據要素市場建設解決大模型研發(fā)面(miàn)臨的數據瓶頸，繼而發(fā)揮大模型對(duì)于數據的處理和分析能(néng)力，創造更大的生産力。”數字中國(guó)研究院（福建）副院長(cháng)邬群勇在發(fā)布會(huì)現場指出。

高質量數據難題待解

在生成(chéng)式人工智能(néng)時代，大模型表現與訓練數據質量息息相關。高質量數據模型訓練和應用過(guò)程中有著(zhe)不可替代的重要性。

高質量數據并非用之不竭的資源。一項來自EpochAlResearch團隊的研究就表明，高質量的語言數據存量將(jiāng)在2026年耗盡。

要解困，首先需要明白什麼(me)是高質量數據。

由于技術更叠節奏、産業發(fā)展速度都(dōu)很快，人們對(duì)大模型表現和功能(néng)的預期也在不斷變化。《白皮書》指出，當前數據質量高低的判定标準主要取決于模型的應用目的，數據類型會(huì)根據模型的發(fā)展階段“因時而動”、根據技術人員的理解判斷“因人而異”、根據模型的訓練效果“因效而定”。

因此，對(duì)質量的比較隻能(néng)在同類型語料中展開(kāi)。《白皮書》指出，這(zhè)類比較往往需要從質量、規模、多樣(yàng)性三個維度出發(fā)。

質量方面(miàn)，被(bèi)視爲“高質量”通常是因爲其信息已經(jīng)通過(guò)了有用性或質量篩選。比如新聞、論文數據等會(huì)經(jīng)由專業标準篩選，社交媒體上的内容則可能(néng)由用戶互動積極性篩選。如果不确定來源，則可以通過(guò)少量樣(yàng)本人工評價判斷其可讀性、幫助性、安全性等指标的質量。

數據規模算是比較老生常談的問題。在Scaling laws（規模法則，也稱标度律）還(hái)相當有說服力的當下，當模型的參數或計算量按比例擴大時，模型性能(néng)也與之成(chéng)比例提升。“不單純是語料規模越大越好(hǎo)，而是高信息密度的語料規模越大越好(hǎo)。”《白皮書》中進(jìn)一步提示。

同類型語料中的多樣(yàng)性也是值得關注的問題。《白皮書》認爲，保證多樣(yàng)性將(jiāng)有效減小模型可能(néng)表現出的偏見或系統性不平等。

判斷标準确定，“數據從哪來”是下一步要面(miàn)對(duì)的問題。

“首先是數據開(kāi)放程度有待進(jìn)一步加強。雖然數據開(kāi)放共享的理念得到推廣，但實際可用的開(kāi)放數據與市場需求仍然存在較大缺口。”邬群勇在接受21世紀經(jīng)濟報道(dào)記者采訪時指出，雖然一些公共平台開(kāi)放了數據獲取的API，但其數據服務伴随嚴格的限制，比如限制訪問量，附加收費等。

此外，受限于價值評估、質量判斷等配套規則、标準并未完善，數據價值被(bèi)确認，進(jìn)而走向(xiàng)流通利用之路也面(miàn)臨一定挑戰。

針對(duì)高質量數據供給難題，現行方案側重于進(jìn)一步構建行之有效的數據開(kāi)放機制，鼓勵行業數據、公共數據等充分流轉應用。

合成(chéng)數據或成(chéng)新路徑

事(shì)實上，建立數據開(kāi)放機制，在訓練過(guò)程中引入合成(chéng)數據或許也是一條“開(kāi)源”的路徑。

合成(chéng)數據是通過(guò)算法和數學(xué)模型創建的數據。通過(guò)建模真實數據的分布，然後(hòu)在該分布上進(jìn)行采樣(yàng)，創建出新數據集，能(néng)夠讓合成(chéng)數據模拟出真實數據中的統計模式和關系。在大模型訓練中，合成(chéng)數據能(néng)夠發(fā)揮補充或替代真實數據的作用。

據媒體報道(dào)，OpenAI、Anthropic、DeepMind等公司都(dōu)曾表态將(jiāng)探索在訓練中引入合成(chéng)數據的可能(néng)性。《白皮書》也提到，OpenAI的Sora就用到了大量由遊戲引擎合成(chéng)的視頻數據作爲訓練集。

《白皮書》認爲，合成(chéng)數據解決了部分類型的真實世界數據難以觀測的問題，拓展了訓練數據的多樣(yàng)性。比如，一些“邊緣情況”（如極端天氣、罕見病）或者真實世界中的“潛在隐患”（如金融詐騙等安全風險）數據的生成(chéng)可以彌補因樣(yàng)本分布不均衡導緻的客觀限制。

邬群勇認爲，合成(chéng)數據可以提高模型訓練的效率。一方面(miàn)，合成(chéng)數據可以根據特定的需求進(jìn)行設計，比真實數據集更廣泛，可确保滿足特定的數據質量标準。另一方面(miàn)，這(zhè)類數據可以快速生成(chéng)，幾乎不需要人類标注，且不需要進(jìn)行繁瑣的數據清洗和預處理工作，可提高數據獲取效率。

合成(chéng)數據生成(chéng)過(guò)程可能(néng)存在偏差或噪聲，有觀點認爲數據的質量和真實性無法完全模拟客觀世界。但在邬群勇看來，部分噪聲數據對(duì)模型訓練來說是必需的，有助于提高模型的魯棒性。

對(duì)于飽受質疑的隐私安全顧慮，《白皮書》提到，合成(chéng)數據可以替代個人特征數據，有助于用戶隐私保護，解決數據獲取合規性的問題。當前，類似 “猜你喜歡”功能(néng)的實現往往需要大量用戶數據的參與。大模型理解力逐漸提高的當下，一方面(miàn)，可以用合成(chéng)數據替代用戶數據訓練模型；另一方面(miàn)，用戶的需求也可以通過(guò)與模型的自然語言交流被(bèi)系統理解。“整個過(guò)程在提升推薦匹配度的同時，還(hái)可以降低推薦模型對(duì)個人特征數據的依賴。”《白皮書》指出。

在可及的未來，合成(chéng)數據將(jiāng)有望在幾大場景發(fā)揮作用。

首先，合成(chéng)數據可應用于多模态數據的生成(chéng)。利用模拟器生成(chéng)的多模态場景數據還(hái)廣泛應用于具身智能(néng)機器人、自動駕駛、AIforScience等場景的訓練。

其次是高價值領域知識的生成(chéng)。合成(chéng)數據能(néng)通過(guò)對(duì)現有數據的深加工，將(jiāng)之前不能(néng)被(bèi)用于訓練的數據轉化爲可用。例如工業制造領域，利用合成(chéng)數據，可以把生産、制造等工藝流程相關的原始數據，結合行業知識圖譜，轉化爲可供大模型學(xué)習的工業語料，以緩解行業語料短缺的問題。

據咨詢公司Gartner預測，到2030年，合成(chéng)數據將(jiāng)徹底取代真實數據，成(chéng)爲AI模型所使用的數據的主要來源。美國(guó)AI研究機構Cognilytica數據顯示，2021年合成(chéng)數據市場規模大概在1.1億美元，到2027年將(jiāng)達到11.5億美元。

關鍵詞：

返回列表

上一篇：業界預計5月份新增信貸環比增長(cháng) 社融增量有望超2萬億元

下一篇：房貸新政背後(hòu)：42家A股銀行的“房貸壓力”

搜索

行業動态

AI訓練數據荒下，合成(chéng)數據成(chéng)爲“開(kāi)源”新解法？