文:姚冕
來源:輕金融
“問渠那得清如許,爲有源頭活水來。”數據要素如同源頭活水,以其可流通、可複制、可共享的特征,打破了土地、勞動力、資本等傳統生産要素的局限性,融合貫通,百川彙海,在新興技術的推動下激起(qǐ)建設數字中國(guó)的時代浪潮。數據要素的安全流通是促清水開(kāi)源、保活水澄澈的前提,然而,普遍存在的“數據孤島”現象,日趨嚴格的全球數據合規監管,隐私洩露事(shì)件頻發(fā)導緻的信任鴻溝,成(chéng)爲了制約數據流通與共享的主要因素,導緻了數據流通中“不願、不敢、不便”的痛點。
如何在保障各參與方數據安全的前提下實現流通共享和協作應用,是合規、安全、充分地挖掘和釋放數據價值的關鍵。金融業作爲數字化程度最高的行業之一,對(duì)數據要素合作共享、融合應用的需求尤爲迫切。
隐私計算技術爲解決數據流通與隐私保護之間的矛盾提供了有效途徑。近年來隐私計算技術和應用的成(chéng)熟度迅速提升,已經(jīng)由實驗室走向(xiàng)業界,并在一些場景落地實現。本文淺析隐私計算技術體系、在銀行業的應用探索以及未來展望。
一、隐私計算概念與關鍵技術
“空山不見人,但聞人語響”。唐代詩人王維描繪的“但聞其聲不見其人”的幽深、神秘意境,很好(hǎo)的契合了隐私計算“數據可用不可見”的精髓,形成(chéng)了跨越時空的共鳴。
1. 隐私計算基本概念
随著(zhe)數字化進(jìn)程的不斷推進(jìn),海量數據散落在不同的組織機構和信息系統中。由于數據複制成(chéng)本極低、數據合規監管日趨嚴格,各數據所有方不願意、不能(néng)夠共享數據,于是形成(chéng)了一座座“數據孤島”。
隐私計算(Privacy-Preserving Computation), 是指在提供隐私保護的前提下,通過(guò)對(duì)多方的數據進(jìn)行協作共享和計算分析,實現數據價值挖掘的技術體系。隐私計算并不是一種(zhǒng)單一的技術,它是一套包含人工智能(néng)、密碼學(xué)、數據科學(xué)等衆多領域交叉融合的跨學(xué)科技術體系。隐私計算技術通過(guò)數據方、計算方、結果方的分離,打破了數據孤島,真正實現數據的“可用不可見”。
隐私計算技術主要包括數據脫敏、匿名算法、差分隐私等傳統隐私計算技術;多方安全計算、聯邦學(xué)習、基于硬件的可信計算技術等新型隐私計算技術。隐私計算技術中應用了大量密碼學(xué)協議,主要包括秘密分享、同态加密、混淆電路、不經(jīng)意傳輸、零知識證明等。
2. 隐私計算關鍵技術
當前備受業界關注的隐私計算關鍵技術主要包括三大技術路線,即多方安全計算、聯邦學(xué)習、可信計算技術。
多方安全計算(Secure Multi-party Computation),最早是由圖靈獎獲得者、中國(guó)科學(xué)院院士姚期智于1982 年正式提出,是一種(zhǒng)在持有秘密數據的參與方互不信任且沒(méi)有可信第三方的情況下,安全地協同計算約定函數的技術和系統。多方安全計算基于密碼學(xué)協議實現,通過(guò)基本運算操作組合實現衍生運算操作,解決多個參與方在不洩露自有私密信息前提下分享數據、共同完成(chéng)一個函數計算的問題,從而實現保護各方隐私下的多方數據計算分析,如隐私求交、隐匿查詢、聯合統計。多方安全計算确保參與方無法獲得正确計算結果之外的任何信息。
聯邦學(xué)習(Federated Learning),本質上是一種(zhǒng)去中心化的分布式機器學(xué)習框架,能(néng)有效幫助多個機構在滿足用戶隐私保護、數據安全和政府法規的要求下,進(jìn)行數據使用和機器學(xué)習建模。聯邦學(xué)習的核心思想是“數據不動、模型動”,即各參與方不交換原始數據,隻交換密文形式的中間計算結果,保證各方數據不洩露。在原始數據不出本地的情況下,可借助其他方數據進(jìn)行聯合訓練,建立共享的機器學(xué)習模型,從而達到提升模型效果的目的。根據建模數據的特征,聯邦學(xué)習可分爲橫向(xiàng)聯邦學(xué)習、縱向(xiàng)聯邦學(xué)習和聯邦遷移學(xué)習。橫向(xiàng)聯邦主要指各參與方數據集樣(yàng)本鍵值ID重合較小,樣(yàng)本特征重合較大,本質上是通過(guò)擴充訓練樣(yàng)本數量提升建模能(néng)力,适用于同業間共建模型;縱向(xiàng)聯邦主要指各參與方數據集樣(yàng)本鍵值ID重合較大,樣(yàng)本特征重合較小,本質是通過(guò)豐富樣(yàng)本特征維度優化模型效果,适用于跨行業增加外部樣(yàng)本特征維度。聯邦遷移學(xué)習是指在各參與方的樣(yàng)本鍵值ID和特征重合度都(dōu)極低的情況下進(jìn)行聯合機器學(xué)習,難度較前兩(liǎng)者更大,目前尚處于研究階段。
可信計算(Trusted Computation),是基于軟硬件建立的一套安全運行環境,通過(guò)時分複用CPU或劃分部分内存地址作爲安全空間,構建出與外部隔離的安全計算環境,用于部署隐私計算邏輯,處理敏感數據,保證運行在其中的代碼和數據安全。多方基于對(duì)可信計算硬件的信任進(jìn)行數據的融合,并通過(guò)一套完整性度量機制保證系統運行的完整性未遭到破壞;外部多方數據進(jìn)入可信執行環境前使用密文傳輸,在可信執行環境中解密後(hòu)進(jìn)行數據融合計算。
3. 隐私計算技術發(fā)展趨勢
随著(zhe)密碼學(xué)技術、硬件技術的快速發(fā)展,隐私計算技術路線也随之高速演進(jìn)和變化。多方安全計算、聯邦學(xué)習、可信計算三大主流技術呈現互相交織、吸收、互補、融合的發(fā)展态勢。多方安全計算具有更加安全的聯合數據分析能(néng)力,可以增強聯邦學(xué)習數據協作過(guò)程中的安全性,例如可使用多方安全計算中的隐私求交技術實現縱向(xiàng)聯邦學(xué)習中各參與方公共樣(yàng)本ID的計算。基于硬件的可信計算在通用性、計算性能(néng)、易用性方面(miàn)具有優勢,與純軟件的隐私計算解決方案融合應用,可顯著提高其運行效率。
隐私計算技術與區塊鏈技術的融合應用,可促進(jìn)更廣泛的數據協作,也是重要發(fā)展趨勢之一。將(jiāng)區塊鏈技術對(duì)計算的可信證明應用到隐私計算中,可以在保護數據隐私的同時增強隐私計算過(guò)程的可驗證性;同時,隐私計算技術可以爲鏈上數據提供隐私保護能(néng)力。
二、隐私計算實施方法
爲了實施部署企業級隐私計算,需要綜合考慮技術體系架構、數據來源、業務應用策略、商業模式、管理保障和協同等因素。
1. 構建隐私計算技術體系,支撐數據安全流通
一個完備的隐私計算技術體系應具備以下幾項能(néng)力:一是底層安全保護能(néng)力。基于秘密分享、同态加密等密碼學(xué)協議和可信執行環境,實現軟硬件結合的全方位安全保護。二是隐私計算服務能(néng)力。基于底層安全保護技術,提供聯邦建模、聯邦預測、聯合統計、隐私求交、隐匿查詢等隐私計算服務。三是運行支撐能(néng)力。提供統一的運行環境,爲隐私計算應用設計、流程開(kāi)發(fā)等提供技術支撐,滿足各業務領域的隐私計算研發(fā)及運營管理需求。四是實現全方位的運維管控,支持對(duì)任務調度、運行狀态、數據管理、用戶管理、異常事(shì)件等進(jìn)行可視化監控和管理。
2. 融合内外部多維度數據,豐富非金融屬性數據
數據是隐私計算的核心,厘清數據來源并對(duì)其分級分類,是隐私計算金融業實踐的基礎。一般而言,可將(jiāng)數據分爲三種(zhǒng)類型,第一方數據(自有數據,自身采集或運營過(guò)程中産生的數據)、第二方數據(合作夥伴數據)和第三方數據(公共機構、互聯網公司等機構擁有的數據)。對(duì)于每類數據,金融機構需要劃分安全等級、評估使用條件,包括數據來源渠道(dào)可靠性、數據更新及時性、數據質量有效性、數據内容完整性等。
金融機構與其他機構間的數據合作存在以下4類模式:1)“銀行+政務開(kāi)放數據”,由政府主導開(kāi)放電子政務數據資源,銀行利用政務數據提升金融服務水平,提供普惠金融服務,推動數字政府的建設。2)“銀行組織、聯盟、協會(huì)或銀行+銀行”,在銀行聯盟、行業協會(huì)或銀行之間開(kāi)展數據合作,共享金融數據資源,提升行業整體服務水平和風控能(néng)力,促進(jìn)行業共同發(fā)展進(jìn)步。3)“互聯網企業+銀行”,互聯網企業和銀行之間進(jìn)行數據合作,銀行利用互聯網企業的社交、消費、生活等行爲數據爲金融服務提質增效;互聯網企業利用銀行資金渠道(dào)拓展業務領域,雙方相互促進(jìn)各自業務發(fā)展。4)“運營商+銀行”,銀行利用運營商通訊數據開(kāi)展客戶營銷、運營優化和風險防控;運營商通過(guò)合作增加獲客渠道(dào),或通過(guò)數據資源獲得收益。
三、隐私計算技術在銀行業應用探索
隐私計算技術與營銷、風控、監管合規等銀行業務領域的深度融合應用,釋放了金融創新活力和數據要素價值,推動了銀行數字化轉型升級。
1. 客戶營銷
在傳統的營銷體系下,由于無法及時、精準掌握每位客戶的需求偏好(hǎo),銀行提供的針對(duì)客戶群體的産品和服務千篇一律,營銷效果不盡人意。銀行需要完善的,精确到“點”的客戶360度畫像,然而現有的客戶數據分散在不同的系統,數據相互隔離,難以通過(guò)數字化的手段爲客戶進(jìn)行全方位的畫像。
通過(guò)隐私計算技術,可以安全地融合多方數據源,構建“千人千面(miàn)”的精準營銷模式。一是發(fā)掘客戶實時需求,及時組織好(hǎo)匹配的産品與個性化服務,以響應客戶的需求,將(jiāng)消費場景轉化爲營銷場景,使得營銷過(guò)程更針對(duì)性和指向(xiàng)性,提升用戶的轉化率。二是將(jiāng)融合的多方數據結合業務特征進(jìn)行關聯分析,在保護各方用戶數據隐私的前提下,輸出客戶對(duì)應的消費習慣、淨值等标簽。根據标簽將(jiāng)目标客戶分群,挖掘潛在需求人群,根據客群的多種(zhǒng)需求進(jìn)行“交叉營銷”。三是引入客戶營銷效果反饋的量化分析與評價機制,不斷優化聯合營銷模型,調整營銷策略。通過(guò)多方數據安全融合的精準聯合營銷,可達到“想客戶之所想,薦客戶之所需”的智能(néng)營銷效果,有效降低營銷成(chéng)本,增強金融服務能(néng)力,提升客戶的轉換率、用戶的留存率以及交叉滲透率。
2. 智能(néng)風控
傳統信貸管理體系由于客戶數據維度匮乏、數據量有限,存在貸前客戶信息收集困難、信息準确性難以驗證;貸中難以實時獲取客戶信用、産品交易等信息,無法實時判斷客戶的經(jīng)營情況、行業整體發(fā)展狀況以及在交易環節可能(néng)存在的風險;貸後(hòu)信息滞後(hòu)、難以準确、及時反饋。
通過(guò)隐私計算技術與合作機構展開(kāi)政務、企業等多維度數據融合共享,聯合完成(chéng)風控數據分析、基于客戶360度畫像的數字信用評級模型訓練和風險決策等任務,可有效降低信息的不對(duì)稱性與不透明性,提升信貸風控能(néng)力。金融機構可改變僅利用客戶财務經(jīng)營信息、抵質押擔保信息等的傳統授信審批模式,實現面(miàn)向(xiàng)業務場景和交易過(guò)程的授信,并結合長(cháng)尾客戶“額度小、期限短、需求頻繁、辦理要求快”的貸款需求,推出高效、便捷、智能(néng)的“自動化、直通式”融資服務模式,提高融資效率,降低融資成(chéng)本,服務實體經(jīng)濟。
3. 監管合規
2021年4月,人行發(fā)布實施《金融機構反洗錢和反恐怖融資監督管理辦法》,随著(zhe)《辦法》發(fā)布,反洗錢工作已經(jīng)從身份識别轉向(xiàng)全民客戶盡調時代,名單監測,客戶信息的完整有效,勾稽關系的合理性需綜合多方數據進(jìn)行分析。數據是反洗錢和了解你的客戶(KYC)的基礎,通過(guò)融合多方數據源,可以精準了解你的客戶(KYC)和分析挖掘可疑交易規律。
通過(guò)隐私計算技術,可以整合内外部收集到的各種(zhǒng)數據,盡可能(néng)消除申請及交易等環節的信息不對(duì)稱問題,并與客戶行爲建立關聯,從而更全面(miàn)地了解客戶、評估客戶。基于多方數據源還(hái)可建立豐富的反欺詐模型、規則以及反欺詐知識庫,對(duì)客戶進(jìn)行持續識别和監控,增強反洗錢風險洞察及溯源核查能(néng)力。
四、隐私計算未來展望
2020年被(bèi)業界稱爲隐私計算元年,隐私計算技術逐步走向(xiàng)商用,各方積極布局探索。目前隐私計算需要在以下幾個方面(miàn)完善和攻堅:1、隐私計算産品在計算複雜度、多方交互效率、模型性能(néng)等方面(miàn)存在瓶頸。2、不同隐私計算産品互聯互通存在障礙。3、缺乏專注于隐私信息共享和流通的法律法規,存在隐私計算應用合規痛點。4、在技術和行業标準方面(miàn)存在空白,國(guó)内亦缺乏權威規範的認證機構。
展望未來,學(xué)術界與産業界攜手共進(jìn),正通過(guò)以下幾方面(miàn)大力推動隐私計算技術的發(fā)展和應用:1、通過(guò)優化算法和協議設計、多種(zhǒng)技術融合、軟硬件協同等途徑提升隐私計算效率和性能(néng)。2、建立隐私計算互聯互通标準。3、完善政策法規,厘清合規邊界,解決隐私計算金融應用存在的合規痛點,出台政策鼓勵數據分享、支持隐私計算産業健康發(fā)展。4、制定、完善标準和認證體系,爲行業樹立技術發(fā)展和應用的度量标尺,促進(jìn)隐私計算推廣應用。
本文作者:工行軟件開(kāi)發(fā)中心 姚冕