首頁
關于我們
業務介紹
合作案例
戰略合作夥伴
行業動态
加入我們
搜索
行業動态

中國(guó)科學(xué)院信工所研究員虎嵩林:大模型的安全風險主要體現在無害性和誠實性兩(liǎng)大方面(miàn)

發(fā)布時間:2024-04-28

文:袁園 來源:每日經(jīng)濟新聞 

4月25日,2024中關村論壇在京開(kāi)幕。本屆論壇以“創新:建設更加美好(hǎo)的世界”爲主題,邀請全球知名專家學(xué)者和企業家,共商創新大計。

數據安全治理與發(fā)展論壇上,中國(guó)科學(xué)院信工所研究員虎嵩林接受了包括《每日經(jīng)濟新聞》記者在内的媒體采訪,并針對(duì)當前AI大模型引發(fā)的全新安全問題以及企業和行業的應對(duì)措施等給出了回應。

促使大模型遵循人類價值觀等難題亟待解決

當前生成(chéng)式人工智能(néng)技術作爲人工智能(néng)演化過(guò)程中的重要突破,爲引領産業革新和數字化變革奠定了堅實的基礎。根據麥肯錫報告,生成(chéng)式AI每年或將(jiāng)爲全球GDP增加2.6萬億美元~4.4萬億美元。

但是生成(chéng)式人工智能(néng)技術在叠代升級的同時也放大了技術安全風險。比如,數據方面(miàn),數據會(huì)帶來價值偏見、隐私洩露、數據污染等問題:訓練數據固有偏見導緻模型産生偏見内容;海量訓練數據擴大了數據安全和隐私保護風險。算法方面(miàn),算法模型生成(chéng)特性及安全漏洞會(huì)引發(fā)“幻覺”或虛假信息、模型遭受攻擊等風險。

對(duì)此,虎嵩林認爲,生成(chéng)式人工智能(néng)大模型的安全重要性不言而喻。當前,大模型正在成(chéng)爲驅動新質生産力發(fā)展的新動能(néng)、人類探索未知的新工具。在賦能(néng)新時代發(fā)展的同時,生成(chéng)式人工智能(néng)也給全球帶來了前所未有的安全風險。

大模型不僅可以對(duì)話和生成(chéng)視頻、還(hái)可以調用工具、鏈接物理設備、并通過(guò)與機器人結合實現具身智能(néng)。大模型本身也正在從人類可利用的工具客體向(xiàng)認識、改造自然社會(huì)的主體轉變。成(chéng)爲數學(xué)定理證明、科學(xué)研究的合作者,成(chéng)爲獨立運營企業的法律主體。

虎嵩林表示,大模型能(néng)力的通用性、潛在的主體地位以及應用的深度與廣度,也都(dōu)將(jiāng)進(jìn)一步放大其危害程度。包括兩(liǎng)位圖靈獎得主Hinton、Bengio和谷歌DeepMind和OpenAI的CEO在内的産學(xué)兩(liǎng)界領軍人物聯名發(fā)出的AI風險聲明中,更將(jiāng)AI可能(néng)帶來的“毀滅性”的風險,上升到了與流行病以及核戰争相提并論的高度。

2023年底《自然》雜志預測的2024年的重大科學(xué)事(shì)件中,GPT5的發(fā)布以及聯合國(guó)人工智能(néng)高級别咨詢機構將(jiāng)發(fā)布的AI監管相關報告位列其中,反映了全球對(duì)協調人工智能(néng)發(fā)展與安全的重大關切。毫無疑問,促使大模型遵循人類價值觀、服從人類意圖,規避各類風險,并保障數字和物理空間的應用安全,實現有用性(Helpful)、無害性(Harmless)和誠實性(Honest)3H多目标的平衡,已經(jīng)成(chéng)爲亟待解決的世界難題。

大模型的安全風險主要體現在兩(liǎng)大方面(miàn)

“大模型的安全風險主要體現在無害性(Harmless)和誠實性(Honest)兩(liǎng)個方面(miàn)。”虎嵩林表示,其中,有害信息對(duì)應前者,包括價值偏見,隐私洩露,還(hái)有黃賭毒、涉恐涉暴、仇恨、反諷、歧視、刻闆印象等等各種(zhǒng)信息污染;不實信息對(duì)應後(hòu)者,包括虛假信息、僞造、欺詐内容等。

更廣義地講,也包括由輸出信息所直接導緻的各類不安全的指令調用、智能(néng)體或者具身智能(néng)機器人的惡意行爲等等。而所謂“幻覺”,則是一把“雙刃劍”,既有可能(néng)是導緻有害、不實信息的“元兇”,也有可能(néng)是科學(xué)創新、藝術創意的能(néng)力來源。我們談的幻覺緩解,主要還(hái)是針對(duì)前者。

虎嵩林進(jìn)一步指出,生成(chéng)式大模型特有的預訓練、微調、上下文、提示、思維鏈COT等新的學(xué)習範式,使其安全具有了與傳統AI安全不同的許多新特點,面(miàn)臨諸多新挑戰,确實制約了傳統安全方法、經(jīng)驗、工具在大模型安全領域發(fā)揮效能(néng)。

大模型安全風險的成(chéng)因既可以是來自各類訓練數據的缺陷或算法的局限性等模型内因,也可以是利用這(zhè)些新型學(xué)習範式的惡意使用或蓄意攻擊等外因。這(zhè)使得大模型在數據準備、預訓練、微調對(duì)齊、推理以及應用階段都(dōu)會(huì)存在各種(zhǒng)潛在的風險。盡管目前我們在安全理論、大模型安全評測、自動化測試、價值觀對(duì)齊、幻覺緩解等方面(miàn)都(dōu)開(kāi)展了一系列的研究和應用工作,這(zhè)些領域依然充滿了挑戰。

至于企業、行業應該從哪些方面(miàn)進(jìn)行安全維護這(zhè)個問題。虎嵩林認爲,這(zhè)個回答的難度比較大。“坦白地說,從理論上,或者說技術上,大模型安全仍然還(hái)有很多亟待解決的難題。”

虎嵩林認爲,一方面(miàn),我們對(duì)大模型“智能(néng)湧現”的原理還(hái)所知甚少,對(duì)上下文學(xué)習、提示學(xué)習、思維鏈等能(néng)力的内在機理仍嚴重缺乏認知。一些研究工作也證明AI的安全性無法完全保障,對(duì)任意一個對(duì)齊模型總存在一定長(cháng)度的提示可以將(jiāng)之攻破等,這(zhè)都(dōu)極大地制約我們從原理上認識和防禦大模型的安全風險;

“另一方面(miàn),我們又需要在現有的技術條件下持續探索,這(zhè)也是我們設計‘以攻促防、攻防相長(cháng)’思路,研制Galexy(星河)大模型安全測評平台的原因,也是舉辦這(zhè)次大賽(首屆生成(chéng)式人工智能(néng)安全大賽)的初衷。”虎嵩林介紹道(dào),我們希望通過(guò)“攻、檢、防”,不斷發(fā)現漏洞、自動識别并進(jìn)行持續化的安全加固,形成(chéng)一個循環發(fā)展的飛輪。



關鍵詞: