概述：機器學習和大數(shù)據(jù)技術在信貸風控場景中的應用（1)

發(fā)布人：數(shù)據(jù)派THU 時間：2022-01-16 來源：工程師

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

來源：知乎

似乎一夜之間，所有的互聯(lián)網(wǎng)公司在對外的宣傳稿中都會提及自己使用機器學習和大數(shù)據(jù)技術，一時間成為了近幾年來最炙手可熱的名詞，不談機器學習、大數(shù)據(jù)似乎都不好意思說自己是做高新技術的了。

百度搜索指數(shù)：機器學習

百度搜索指數(shù)：大數(shù)據(jù)

上圖來自最近7年來這兩個詞的百度搜索指數(shù)，可以看到從2013年開始一直在穩(wěn)步攀升，在2017年的時候迎來了爆發(fā)式的增長，這些都與我們的感知類同。

機器學習與人腦思維的區(qū)別

機器學習和大數(shù)據(jù)應用是相輔相成的，目的是想用機器去模擬人類的思考過程，人類通過自身經(jīng)歷經(jīng)過思考可以形成經(jīng)驗，并用來解決新的問題，而機器學習是需要利用大量的歷史數(shù)據(jù)去訓練一個模型去解決一個特定的問題：比如識別兩張臉是否一致、該用戶是不是精準客戶等。

雖然這兩個詞這兩年才火起來，但是這些概念早在半個多世紀前就有理論的提出，尤其機器學習的算法已經(jīng)在幾十年前就非常成熟了，但是受制于計算效率、存儲等硬件的限制，大數(shù)據(jù)和機器學習在實際業(yè)務上的應用場景十分受限，很難有大規(guī)模的場景應用。最近十年來隨著存儲、芯片等層面的突破讓大數(shù)據(jù)和機器學習的計算應用成本大大降低，這也支撐了基于這兩項技術的應用場景呈現(xiàn)爆發(fā)式增長。

除了機器學習之外，我們也發(fā)現(xiàn)互聯(lián)網(wǎng)信貸成為了這幾年最火的行業(yè)方向，互聯(lián)網(wǎng)信貸的工作重心在風控。于是天作佳成，正如目前我們看到的，信貸風控成為當前機器學習和大數(shù)據(jù)技術最適合也是最成熟的應用場景之一：

1.金融業(yè)務自身需要大量的數(shù)據(jù)且也會產(chǎn)生更多的數(shù)據(jù)，這天然的讓信貸風控成為最適合大數(shù)據(jù)和機器學習的場景；

2.風控涉及的數(shù)據(jù)量大、數(shù)據(jù)面廣、關聯(lián)復雜，也急需利用大數(shù)據(jù)和機器學習技術解決風控過程中效率低、缺乏公平準則、風險難以量化的問題；

所以正是因為這樣的相互依賴，信貸風控成為當前大數(shù)據(jù)和機器學習技術應用最成熟的領域之一。

信貸風控中的主要問題

信貸風控最關鍵的目標就是從全量申請用戶樣本中找到會逾期的客戶，所以風控的核心目的是評估用戶的還款意愿和還款能力。從過去的業(yè)務實踐經(jīng)驗來看，風控當中需要重點關注的問題包括：

非本人申請：申請人利用虛假身份申請信貸，這一問題在信貸業(yè)務高速增長的蠻荒階段，****或者互金機構缺乏對黑產(chǎn)全面的認知，在部分業(yè)務環(huán)節(jié)被黑產(chǎn)用虛假/殘缺或者非本人身份證欺詐，包括一些知名的持牌消金機構也遇到過大量類似的欺詐案例。

偽造資料：申請人為了更容易獲得貸款或者貸后惡意逾期避免催收，偽造收入證明、聯(lián)系人、工作地址等資料。

中介團伙：中介在網(wǎng)絡上大量招徠需要信貸申請的用戶，使用不同的攻略“教”客戶如何有機會以較高概率通過****/信貸機構的審核。

歷史信用記錄：用戶歷史如果存在大量失信行為，或者存在****/毒等不良社會行為，那么其逾期失聯(lián)的概率也很高。

還款能力不足：申請人負債收入比較高，外部有大量債務且自身收入不穩(wěn)定，這些都有可能導致用戶愿意還款但是卻沒有能力還款。

基于大數(shù)據(jù)和機器學習技術的風控解決方案

為了解決上述的這些問題，目前業(yè)內已經(jīng)形成了一套基于大數(shù)據(jù)和機器學習技術的較為完整的解決方案。

非本人申請：人臉識別技術

目前人臉識別技術已經(jīng)應用在生活中的方方面面，如刷臉支付、高鐵進站甚至公安的天網(wǎng)系統(tǒng)；而在金融業(yè)務中，****辦理、網(wǎng)貸申請也都普遍使用人臉識別：將申請人照片與在公安系統(tǒng)中身份證存照進行比對，判斷兩張照片的相似度，可有效避免非本人申請的問題。

與人類識別面部類似，當我們人類對一個人比較熟悉的時候，我們很容易根據(jù)他的面部特征與我們在腦海里過去存儲的特征進行比對，就能判斷這個人是否是這個人（雖然也會有誤判的時候），同樣的，人臉識別技術的背后也是一套深度學習的算法，把我們思考的過程轉化為模型算法，目前市面上有多家提供人臉識別服務的商業(yè)化應用公司，不過其算法的本質基本是類同的，人臉識別的核心思想在于：不同人臉由不同特征組成。

理解這個思想，首先需要引入的的是“特征”的概念。先看下面這個例子：

最簡單的人臉特征

假設這 5 個特征足夠形容一張人臉，那每張人臉都可表示為這 5 個特征的組合：

（特征1，特征2，特征3，特征4，特征5）

一位雙眼皮，挺鼻梁，藍眼睛，白皮膚，瓜子臉的小姐姐即可用特征表示為（見表格加粗項）：（1,1,0,1,0）

那么遍歷上面這張?zhí)卣鞅砀褚还部梢源?2張不同的臉。32 張臉可遠遠不夠覆蓋70 多億的人口。為了讓不同特征組成的人臉能覆蓋足夠多人臉，我們需要擴充上面那張?zhí)卣鞅?。擴張?zhí)卣鞅砜梢詮男小⒘袃蓚€角度展開。

列的角度很簡單，只需要增加特征數(shù)量：（特征6.臉型,特征7.兩眼之間距離，特征8.嘴唇厚薄…）實際應用中通常應用 128,256,512 或者 1024 個不同特征。從行的角度擴充也很好理解，比如“特征3”，除了值 0 代表藍色，值 1 代表灰色，是不是可以增加一個值 2 代表黑色，值 3 代表沒有頭發(fā)呢？此外，除了這些離散的整數(shù)，我們也可以取連續(xù)的小數(shù)，比如特征 3 的值 0.1，代表“藍中略微帶黑”，值 0.9 代表“灰中帶藍”……

百度開源平臺：面部特征識別

經(jīng)過這樣的擴充，特征空間便會變得無限大。擴充后特征空間里的一張臉可能表示為：

一張臉提取出128維特征變量

用于表示人臉的大量特征從哪來？這便是深度學習（深度神經(jīng)網(wǎng)絡）發(fā)揮作用的地方。它通過在千萬甚至億級別的人臉數(shù)據(jù)庫上學習訓練后，會自動總結出最適合于計算機理解和區(qū)分的人臉特征。

闡明了不同人臉由不同特征組成后，我們便有了足夠的知識來分析人臉，算法工程師通常需要一定的可視化手段才能知道機器到底學習到了哪些利于區(qū)分不同人的特征：同一人的不同照片提取出的特征，在特征空間里距離很近，不同人在特征空間里相距較遠。

三張不同角度的撒貝寧照片經(jīng)過神經(jīng)網(wǎng)絡提取出 128 維的特征后，變成了 3 個在 128 維空間中的點（紅色），劉德華的特征點為綠色。

不過在實際應用中在光照較差、遮擋、形變（大笑）、側臉等諸多條件下，神經(jīng)網(wǎng)絡很難提取出與“標準臉”相似的特征。另外，在金融風控領域還需要解決偽造人臉的情況，面對這些問題，通常采取四種應對措施：

1. 工程角度：研發(fā)質量模型，對檢測到人臉質量進行評價，質量較差則不識別/檢驗。

2. 應用角度：施加場景限制，比如刷臉解鎖、人臉閘機、會場簽到時，都要求用戶在良好的光照條件下正對攝像頭，以避免采集到質量差的圖片。

3. 算法角度：提升人臉識別模型性能，在訓練數(shù)據(jù)里添加更多復雜場景和質量的照片，以增強模型的抗干擾能力。

4.精準活體識別：通過3D建模軟件可以使用用戶已有的照片模擬一張真實的頭像，以此來騙過人臉識別算法，所以如何驗證這個頭像是來自一個真實的人同樣也是一個機器學習的過程。

鯤魚科技-靈犀聯(lián)合實驗室“模擬人臉攻擊”示例

*博客內容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點，如有侵權請聯(lián)系工作人員刪除。

在线看毛片网站电影-亚洲国产欧美日韩精品一区二区三区,国产欧美乱夫不卡无乱码,国产精品欧美久久久天天影视,精品一区二区三区视频在线观看,亚洲国产精品人成乱码天天看,日韩久久久一区,91精品国产91免费

博客專欄

概述：機器學習和大數(shù)據(jù)技術在信貸風控場景中的應用（1)

相關推薦

技術專區(qū)