作者:周俊
引言
螞蟻金服過去十五年,重塑支付改變生活,為全球超過十二億人提供服務(wù),這些背后離不開技術(shù)的支撐。在2019杭州云棲大會上,螞蟻金服將十五年來的技術(shù)沉淀,以及面向未來的金融技術(shù)創(chuàng)新和參會者分享。我們將其中的優(yōu)秀演講整理成文并將陸續(xù)發(fā)布在“螞蟻金服科技”公眾號上,本文為其中一篇。
正文:

在人工智能時代,數(shù)據(jù)是AI領(lǐng)域的石油,如果沒有數(shù)據(jù)很難將AI更好的落地。但是數(shù)據(jù)孤島阻礙了數(shù)據(jù)的獲取和利用,螞蟻金服在三年前開始布局隱私保護(hù)機器學(xué)習(xí),致力于在保護(hù)數(shù)據(jù)安全和隱私保護(hù)的前提下進(jìn)行機器學(xué)習(xí),我們稱之為共享智能。我們之前分享了共享智能的理念和原理,今天,我們想聊聊共享智能的發(fā)展與應(yīng)用趨勢。
人工智能目前存在的難題是魚與熊掌不可兼得,也就是隱私性跟可用性難以兼顧。如果你想要你的AI系統(tǒng)能發(fā)揮作用,就可能需要犧牲隱私。但是,在大量真實場景中,如果做不到同時兼顧隱私和可用性,會導(dǎo)致很多AI落地的困境。
舉幾個例子。
首先是貸款風(fēng)控,用戶想要買房去銀行貸款,在銀行A可能被判定為“壞人”,沒有辦法給他進(jìn)行貸款,因為這個機構(gòu)持有這個人部分?jǐn)?shù)據(jù),同樣的用戶到了機構(gòu)B,這個機構(gòu)B基于它擁有的部分?jǐn)?shù)據(jù),有可能會給予他貸款,這樣矛盾的情況比比皆是,皆是因數(shù)據(jù)不通導(dǎo)致。
在智慧醫(yī)療領(lǐng)域,有些罕見病在每個醫(yī)院的案例都不多,如果我們能把各個醫(yī)院的案例共享起來,就能獲得更多的樣本數(shù)據(jù),從而可以利用AI進(jìn)行更準(zhǔn)確的診斷,但是這個案例里面技術(shù)不是最優(yōu)先的,對醫(yī)院來說,它有責(zé)任保護(hù)患者的隱私,如何確保在共享案例的同時,不泄漏用戶的隱私才是首先要解決的。
數(shù)據(jù)孤島的問題會給AI落地和應(yīng)用帶來很多類似的難題。

現(xiàn)實環(huán)境中,數(shù)據(jù)在這個圖中是不通的,有的地方可能有一些短暫的鏈接,絕大部分?jǐn)?shù)據(jù)在這個圖中處于斷開狀態(tài)。我們的目標(biāo)是想打通數(shù)據(jù)孤島,用技術(shù)的方法解決技術(shù)的問題。通過技術(shù)保護(hù)數(shù)據(jù)安全的情況下,實現(xiàn)數(shù)據(jù)的共享和價值的傳遞。
共享智能:可用不可見
對于共享智能,我們希望達(dá)到的目標(biāo)是數(shù)據(jù)可用不可見,在多方參與且各數(shù)據(jù)提供方與平臺方互不信任的場景下,能夠聚合多方信息進(jìn)行機器學(xué)習(xí),并確保各參與方的隱私不被泄漏,數(shù)據(jù)不被濫用。
為了達(dá)到這一目標(biāo),我們使用了很多業(yè)界已有的技術(shù),比如學(xué)術(shù)圈一直在研究的差分隱私、很多大數(shù)據(jù)廠商在探索的可信執(zhí)行環(huán)境、隨著計算力和硬件技術(shù)的提升+密碼學(xué)突破而廣受重視的多方安全計算等。還有一些情況,目標(biāo)數(shù)據(jù)比較少,但源領(lǐng)域數(shù)據(jù)較多,我們采用遷移學(xué)習(xí)的方法去做數(shù)據(jù)共享,這個也屬于我們大的技術(shù)范疇。

具體來看的話,第一種方案是可信執(zhí)行環(huán)境的方案,主要依賴中間的硬件級的保險箱Enclave,雙方通過一些密碼學(xué)的機制,把數(shù)據(jù)進(jìn)行加密,加密之后只有在密碼箱里面才能解密,解密以后做各式各樣的計算,因為密碼箱是第三方可信的密碼箱,大家不信任彼此的情況下,信任密碼箱即可,這樣在數(shù)據(jù)隱私不會泄露的情況下,去做各式各樣AI的算法。
這種方案依賴可信硬件,通過數(shù)據(jù)加密的方式,集中傳送到可信的平臺。對于一些機構(gòu),本身就已經(jīng)上云,把所有的東西都存放在云上面,所有的技術(shù)在云上面部署,那么采用這種方式非常快速便捷,同時又能達(dá)到很好的隱私保護(hù)的效果。

第二種方案是偏軟件級別的方案,我們在中間把數(shù)據(jù)做相應(yīng)的處理后再進(jìn)行計算。比如說像秘密分享的技術(shù),通過把數(shù)據(jù)拆分完以后,幾方通過發(fā)送隨機數(shù)來完成運算,然后可以完成各式各樣AI的計算和模型;還有像同態(tài)加密這樣的方法,在加密后的空間里面做相應(yīng)的運算來完成AI的計算,中間有一個控制模塊來共同完成學(xué)習(xí)的目標(biāo)。這個方式本身不涉及到硬件,是偏軟件+密碼學(xué)的方案,中間出去的是隨機數(shù)/加密中間結(jié)果,目前業(yè)界隱私+AI結(jié)合的方向上,用這個方案相對來說比較多。
星云Nebula:共享智能網(wǎng)絡(luò)

共享智能需要多方參與,我們設(shè)計了星云Nebula共享智能網(wǎng)絡(luò)架構(gòu),對于螞蟻金服而言,希望跟合作方共同打造這樣的共享智能網(wǎng)絡(luò)。
網(wǎng)絡(luò)中存在各式各樣的計算節(jié)點,能夠在某個管理平臺中進(jìn)行觸發(fā)實現(xiàn)AI計算。這個共享智能網(wǎng)絡(luò),可以用不同的技術(shù)完成共享智能的目標(biāo),比如,構(gòu)建聯(lián)合營銷網(wǎng)絡(luò),節(jié)點之間可任意組網(wǎng),采用多方安全計算技術(shù)來實現(xiàn)聯(lián)合營銷,同時管理節(jié)點可以部署在任何的地方;對于某些機構(gòu)而言,可能沒有很強的AI能力和多方計算能力,那他們可以依賴于云這樣的技術(shù),將數(shù)據(jù)放在可信執(zhí)行環(huán)境中,去參與建設(shè)這樣的網(wǎng)絡(luò),通過這樣的共享智能技術(shù)來解決AI落地最后一公里的難題。

我們整個計算節(jié)點的架構(gòu)如上圖,最底層跟正常環(huán)境比較相似,左邊是各式各樣的可信執(zhí)行環(huán)境,右邊是正常的CPU、GPU環(huán)境。上面會有統(tǒng)一的API層來屏蔽這些不同的細(xì)節(jié)。
再往上面,會有本地的計算,這個計算本身會跟通用的開源框架稍有差異,我們會把現(xiàn)在流行的版本改成安全的版本,比如安全的XGBoost。中間做MPC的時候,我們會提供各式各樣的技術(shù),混淆電路、OT等等這樣的技術(shù),最頂層提供一些可視化跟交互式的接口,普通的用戶通過這樣的調(diào)用就可以完成復(fù)雜的多方計算的操作。同時支持各種保護(hù)隱私的安全模型推斷。
我們希望通過這樣的架構(gòu)完成共享智能技術(shù),并且打造了可視化的界面,采用拖拽式的方式就可以快速高效完成整個AI計算的構(gòu)建。
上述共享智能架構(gòu)現(xiàn)在已經(jīng)達(dá)到了較好的完備性、易用性和穩(wěn)定性的目標(biāo),在很多的地方已經(jīng)進(jìn)行了落地。在完備性方面,我們實現(xiàn)了功能完備和場景完備,目前主要是支持風(fēng)控和其它AI典型場景,里面的算法比較全面,涵蓋了線性模型、樹模型、深度學(xué)習(xí)、圖神經(jīng)網(wǎng)絡(luò)等各個方向;在易用性方面,我們希望能夠更好的推廣這種建模技術(shù),同時又能“屏蔽”一些底層技術(shù)(可信執(zhí)行環(huán)境、多方安全計算等),降低大家學(xué)習(xí)使用的成本;在穩(wěn)定性方面,我們實現(xiàn)了共享智能計算的集群化,并且支持遠(yuǎn)程運維。
我們已經(jīng)將共享智能上線到大數(shù)據(jù)智能平臺上,下面這個demo,是一個多方安全計算的AI建模展示。
<iframe allowfullscreen="true" frameborder="0" height="380" scrolling="no" src="http://open.iqiyi.com/developer/player_js/coopPlayerIndex.html?vid=3fb0382883ea5391a16a660d1727f6ff&tvId=43187162809&accessToken=2.f22860a2479ad60d8da7697274de9346&appKey=3955c3425820435e86d0f4cdfe56f5e7&appId=1368&height=100%&width=100%" width="550"></iframe>
前面預(yù)處理部分跟正常的AI建模看起來一樣,通過拖拽式操作,把數(shù)據(jù)進(jìn)行了預(yù)處理以后,送到共享智能建模中,會產(chǎn)生AI運算的結(jié)果。通過這種方式能夠大幅度降低新技術(shù)的使用門檻,方便業(yè)務(wù)方使用。
螞蟻金服在共享智能領(lǐng)域里建設(shè)了三年多,發(fā)布論文超過10篇,獲得專利超過80余項,在標(biāo)準(zhǔn)立項上我們在IEEE共享智能和ITU-T MPC國際標(biāo)準(zhǔn)、CCSA共享智能行業(yè)標(biāo)準(zhǔn)以及AIOSS / AIIA共享智能聯(lián)盟標(biāo)準(zhǔn)方面都在同步推進(jìn),也獲得了一些創(chuàng)新獎項。
共享智能落地案例
接下來分享三個典型落地案例。

一個是在安全風(fēng)控領(lǐng)域,聯(lián)合生態(tài)伙伴來建立安全風(fēng)控網(wǎng)絡(luò)。生態(tài)伙伴使用前面介紹的可信執(zhí)行環(huán)境技術(shù),把數(shù)據(jù)加密傳輸?shù)骄W(wǎng)絡(luò)中共建這個模型,打擊虛假交易、團(tuán)伙作案等,大幅度提升風(fēng)控準(zhǔn)確率,實現(xiàn)風(fēng)控網(wǎng)絡(luò)的凈化。通過這樣的風(fēng)控網(wǎng)絡(luò)平臺,使得商家每天新增很多的交易,同時降低資損。
第二個是中和農(nóng)信,我們通過數(shù)據(jù)融合大幅度提高風(fēng)控性能,把原來傳統(tǒng)的線下模式,變成線上自動過審模式,完成授信只需5分鐘,8個月累計放款31.9億,授信成功人數(shù)44萬人,業(yè)務(wù)覆蓋20+省區(qū),300+縣城,10000+個鄉(xiāng)村,助力實現(xiàn)農(nóng)村普惠金融。
第三個是與江蘇銀行進(jìn)行的信貸聯(lián)合風(fēng)控,還記得我們前面的例子嗎?因為數(shù)據(jù)不完整,導(dǎo)致風(fēng)控決策錯誤,現(xiàn)在通過共享智能技術(shù),雙方可以完成共同的模型構(gòu)建,通過這樣的機制實現(xiàn)聯(lián)合風(fēng)控,使得效果有大幅度提升。同時在這個過程中,用戶的數(shù)據(jù)和隱私得到了有效保護(hù)。
總的來說,我們想構(gòu)建開放的共享智能網(wǎng)絡(luò),希望有更多的伙伴、機構(gòu)參與進(jìn)來,一起完成建設(shè),打破數(shù)據(jù)孤島,助力AI技術(shù)更好的落地和應(yīng)用。









