睿智科技-睿智合創(北京)科技有限公司

文：袁園來源：每日經(jīng)濟新聞

4月25日，2024中關村論壇在京開(kāi)幕。本屆論壇以“創新：建設更加美好(hǎo)的世界”爲主題，邀請全球知名專家學(xué)者和企業家，共商創新大計。

在數據安全治理與發(fā)展論壇上，中國(guó)科學(xué)院信工所研究員虎嵩林接受了包括《每日經(jīng)濟新聞》記者在内的媒體采訪，并針對(duì)當前AI大模型引發(fā)的全新安全問題以及企業和行業的應對(duì)措施等給出了回應。

促使大模型遵循人類價值觀等難題亟待解決

當前生成(chéng)式人工智能(néng)技術作爲人工智能(néng)演化過(guò)程中的重要突破，爲引領産業革新和數字化變革奠定了堅實的基礎。根據麥肯錫報告，生成(chéng)式AI每年或將(jiāng)爲全球GDP增加2.6萬億美元~4.4萬億美元。

但是生成(chéng)式人工智能(néng)技術在叠代升級的同時也放大了技術安全風險。比如，數據方面(miàn)，數據會(huì)帶來價值偏見、隐私洩露、數據污染等問題：訓練數據固有偏見導緻模型産生偏見内容；海量訓練數據擴大了數據安全和隐私保護風險。算法方面(miàn)，算法模型生成(chéng)特性及安全漏洞會(huì)引發(fā)“幻覺”或虛假信息、模型遭受攻擊等風險。

對(duì)此，虎嵩林認爲，生成(chéng)式人工智能(néng)大模型的安全重要性不言而喻。當前，大模型正在成(chéng)爲驅動新質生産力發(fā)展的新動能(néng)、人類探索未知的新工具。在賦能(néng)新時代發(fā)展的同時，生成(chéng)式人工智能(néng)也給全球帶來了前所未有的安全風險。

大模型不僅可以對(duì)話和生成(chéng)視頻、還(hái)可以調用工具、鏈接物理設備、并通過(guò)與機器人結合實現具身智能(néng)。大模型本身也正在從人類可利用的工具客體向(xiàng)認識、改造自然社會(huì)的主體轉變。成(chéng)爲數學(xué)定理證明、科學(xué)研究的合作者，成(chéng)爲獨立運營企業的法律主體。

虎嵩林表示，大模型能(néng)力的通用性、潛在的主體地位以及應用的深度與廣度，也都(dōu)將(jiāng)進(jìn)一步放大其危害程度。包括兩(liǎng)位圖靈獎得主Hinton、Bengio和谷歌DeepMind和OpenAI的CEO在内的産學(xué)兩(liǎng)界領軍人物聯名發(fā)出的AI風險聲明中，更將(jiāng)AI可能(néng)帶來的“毀滅性”的風險，上升到了與流行病以及核戰争相提并論的高度。

2023年底《自然》雜志預測的2024年的重大科學(xué)事(shì)件中，GPT5的發(fā)布以及聯合國(guó)人工智能(néng)高級别咨詢機構將(jiāng)發(fā)布的AI監管相關報告位列其中，反映了全球對(duì)協調人工智能(néng)發(fā)展與安全的重大關切。毫無疑問，促使大模型遵循人類價值觀、服從人類意圖，規避各類風險，并保障數字和物理空間的應用安全，實現有用性（Helpful）、無害性（Harmless）和誠實性（Honest）3H多目标的平衡，已經(jīng)成(chéng)爲亟待解決的世界難題。

大模型的安全風險主要體現在兩(liǎng)大方面(miàn)

“大模型的安全風險主要體現在無害性（Harmless）和誠實性（Honest）兩(liǎng)個方面(miàn)。”虎嵩林表示，其中，有害信息對(duì)應前者，包括價值偏見，隐私洩露，還(hái)有黃賭毒、涉恐涉暴、仇恨、反諷、歧視、刻闆印象等等各種(zhǒng)信息污染；不實信息對(duì)應後(hòu)者，包括虛假信息、僞造、欺詐内容等。

更廣義地講，也包括由輸出信息所直接導緻的各類不安全的指令調用、智能(néng)體或者具身智能(néng)機器人的惡意行爲等等。而所謂“幻覺”，則是一把“雙刃劍”，既有可能(néng)是導緻有害、不實信息的“元兇”，也有可能(néng)是科學(xué)創新、藝術創意的能(néng)力來源。我們談的幻覺緩解，主要還(hái)是針對(duì)前者。

虎嵩林進(jìn)一步指出，生成(chéng)式大模型特有的預訓練、微調、上下文、提示、思維鏈COT等新的學(xué)習範式，使其安全具有了與傳統AI安全不同的許多新特點，面(miàn)臨諸多新挑戰，确實制約了傳統安全方法、經(jīng)驗、工具在大模型安全領域發(fā)揮效能(néng)。

大模型安全風險的成(chéng)因既可以是來自各類訓練數據的缺陷或算法的局限性等模型内因，也可以是利用這(zhè)些新型學(xué)習範式的惡意使用或蓄意攻擊等外因。這(zhè)使得大模型在數據準備、預訓練、微調對(duì)齊、推理以及應用階段都(dōu)會(huì)存在各種(zhǒng)潛在的風險。盡管目前我們在安全理論、大模型安全評測、自動化測試、價值觀對(duì)齊、幻覺緩解等方面(miàn)都(dōu)開(kāi)展了一系列的研究和應用工作，這(zhè)些領域依然充滿了挑戰。

至于企業、行業應該從哪些方面(miàn)進(jìn)行安全維護這(zhè)個問題。虎嵩林認爲，這(zhè)個回答的難度比較大。“坦白地說，從理論上，或者說技術上，大模型安全仍然還(hái)有很多亟待解決的難題。”

虎嵩林認爲，一方面(miàn)，我們對(duì)大模型“智能(néng)湧現”的原理還(hái)所知甚少，對(duì)上下文學(xué)習、提示學(xué)習、思維鏈等能(néng)力的内在機理仍嚴重缺乏認知。一些研究工作也證明AI的安全性無法完全保障，對(duì)任意一個對(duì)齊模型總存在一定長(cháng)度的提示可以將(jiāng)之攻破等，這(zhè)都(dōu)極大地制約我們從原理上認識和防禦大模型的安全風險；

“另一方面(miàn)，我們又需要在現有的技術條件下持續探索，這(zhè)也是我們設計‘以攻促防、攻防相長(cháng)’思路，研制Galexy（星河）大模型安全測評平台的原因，也是舉辦這(zhè)次大賽（首屆生成(chéng)式人工智能(néng)安全大賽）的初衷。”虎嵩林介紹道(dào)，我們希望通過(guò)“攻、檢、防”，不斷發(fā)現漏洞、自動識别并進(jìn)行持續化的安全加固，形成(chéng)一個循環發(fā)展的飛輪。

關鍵詞：

返回列表

上一篇：不能(néng)搞規避監管的僞創新、亂創新！央行重磅發(fā)文加快推進(jìn)重點金融法治工作

下一篇：全球金融科技投資格局大盤點，亞洲首超歐洲，阿聯酋進(jìn)入前十

搜索

行業動态

中國(guó)科學(xué)院信工所研究員虎嵩林：大模型的安全風險主要體現在無害性和誠實性兩(liǎng)大方面(miàn)