由國家互聯網信息辦公室和浙江省人民政府共同舉辦的2021年世界互聯網大會烏鎮峰會于25號開幕。同期舉辦互聯網之光博覽會,值得關注的是,此次大會在保留傳統特色論壇的基礎上,聚焦開源生態、下一代互聯網、數據與演算法等網絡技術新趨勢。
伴隨《數據安全法》《中華人民共和國個人信息保護法》的出臺,數據已然成為網絡安全行業年度熱詞。此次世界互聯網大會設立“數據安全典型實踐案例“獎項,讓數據的安全之城成為各家所向之地。
數據安全是什麼?是用戶隱私,是業務基石,亦是安全建設的關鍵環節。從數據存儲、流通、處理到銷毀,安全問題無處不在。當傳統IT架構被打破後,數據從數據中心走向雲端、邊緣後,勒索攻擊、數據庫洩露、敏感數據外泄事件更是不絕於耳。
目前,針對數據安全的技術與産品不斷涌現,包括傳統的數據加密、脫敏、備份容災、DLP,以及愈加火熱的數據治理、數據管控、基於數據安全的零信任解決方案、隱私計算等。
顯而易見,以隱私計算為代表的新興技術正在從實驗室走向市場實踐,接受隱私保護與數據安全的現實挑戰。
數據安全的囚徒困境
個人有權維護自己的隱私數據安全,企業則需要基於用戶數據開展業務和提供服務。縱然圍繞數據的安全與隱私管控問題一直面臨爭議,但“個人最佳選擇”(一味地拒絕提供數據)或“企業最佳選擇”(無限制地收集與處理數據)都不是數據時代裏發展與安全的平衡點。
當前,全球數據安全監管不斷收緊,對企業數據處理活動施加了日益嚴格的數據保護義務,強調遵循“用戶明確授權原則”和“最小化原則”,這對傳統的互聯網和大數據商業模式構成了嚴峻挑戰。為此,隱私計算脫穎而出,為産業發展提供了可行方向。
隱私計算(Privacy-preserving computation)主要是在數據被使用時(處理)保護數據,實現在安全的數據處理、共享、跨境傳輸和分析。簡單來説,通過技術路徑實現數據在處理過程中不透明、不洩露,也不能被計算方或者其他非授權方獲取。目前,隱私計算的實現技術路徑包括聯邦學習、多方計算、可信計算、差分隱私、同態加密等。多個技術流派的交叉和發展,推動隱私計算的進一步實現。根據Gartner的預測,到2025年50%的大型企業機構將採用隱私增強計算來處理不可信環境或多方數據分析用例中的數據。彼時,數據孤島不再存在,數據跨IT邊界、跨系統、跨境應成為安全常態,一些依託于隱私計算的平臺將充當數據交換與處理的媒介……
從“黑科技”走向“白科技”
如何讓數據安全地流通創造價值,成為行業內近年的實踐重點。以金融行業-銀行的授信分析場景為例,由於授信分析一般需要基於企業的各種行為數據,為了提高分析的準確性、降低授信風險,不僅要企業/客戶在本銀行的數據,還要融合其他銀行的數據,甚至與其他場景的行為進行聯合建模,最終獲取更精準的模型效果。
醫療行業作為隱私計算的重要應用行業,同樣有著類似的“聯合處理數據”的需求。醫院系統基於歷史的病例數據進行訓練,從而得到一個輔助診斷模型,當再出現一個新病例時,即可根據這個模型來推斷疾病。由於模型訓練往往需要大量的數據樣本,而一家醫院可能因為歷史病例數量少而導致模型準確度存疑。這時,同樣要結合多家醫院的病例數。
上述兩個場景中,如何保障在聯合處理數據時,各家數據的不透明和不洩露?
世界互聯網大會期間,螞蟻隱私計算互聯網醫療應用方案作為中國網絡空間安全協會2021年數據安全典型實踐案例代表,被授予獲獎證書。這個案例是應用了螞蟻的隱私計算技術,使用聯邦學習進行聯合建模,實現提升模型樣本量的目的,同時使用差分隱私技術來保護各銀行/醫院和中心節點進行梯度數據交換計算時的隱私信息。當然,也可以用SCQL技術來進行多家數據聯合分析。舉例來説,如醫療機構希望知道自己的平均住院日和其他醫院的對比情況但不願意分享自己的數據,在這種情況下,醫療機構可以使用SCQL技術對同一類別醫院同一病種的平均住院日進行統計,來實現不直接分享數據還可以進行聯合分析。
此外,螞蟻集團與浦發銀行針對零售貸款業務共同開發了一整套風險評估解決方案,採用多方安全計算的風險模型利用浦發銀行及其合作方的數據來共同提高模型的有效性。由於在訓練和運行兩個階段內均採取了分佈式部署,且雙方都應用了加密演算法。這意味著任何一方的原始數據都不會洩露給另一方,並且也無法通過對訓練結果的反向工程來推導原始數據。最終,基於豐富數據源訓練出的模型識別出了超過14.5萬名高風險客戶,阻止了數十億人民幣的高風險貸款的發放。
從金融到醫療行業,數據的流通和多方協作所面臨的安全困境,反向推動隱私計算從黑科技變成白科技。而數據流通起來才成創造價值,這一論調也在隱私計算的實踐中被反復驗證。
隱私計算:未來數據處理的“安全媒介”
有了隱私計算技術的應用,不斷發佈的安全法規對大數據行業不僅不是禁錮,反而是一種正向的激勵:明確了個人信息的界限、指明瞭數據流通與處理的規範。
《數據安全法》第一章第十六條規定:“國家支持數據開發利用和數據安全技術研究,鼓勵數據開發利用和數據安全等領域的技術推廣和商業創新,培育、發展數據開發利用和數據安全産品、産業體系。”固然,隱私計算的發展空間和商業上限還需要繼續探索,但是從市場需求趨勢和行業數據安全需求來看,隱私計算正在迎來春風,通過結合數據全生命週期保護的全部主流技術,應用於金融風控、保險快速理賠、民生政務、多方聯合科研等多個領域。
數據可用不可得,數據可用不可見,隱私計算正在積極破解各行業數據流通的痛點,推動我國數據要素市場的健康發展。(文/惠志斌 上海社科院互聯網研究中心主任,研究員)