人臉識別:在警察領(lǐng)域高級人臉識別技術(shù)的一致性
1
導讀
來自英國伯恩茅斯大學實驗室的研究人員作出的貢獻。近年來,人們對具有較高識別能力的人越來越感興趣。然而,對這些人的識別主要依賴于一次單一的人臉記憶測試的標準性能。目前調(diào)查旨在審查30名警察的高級人臉識別技能的一致性,既包括進入同一過程的測試,也包括進入人臉處理不同組成部分的測試之間的一致性。各相關(guān)指標的總體績效指標被發(fā)現(xiàn),以孤立的測試分數(shù)確定不同的優(yōu)秀表現(xiàn)。此外,不同表現(xiàn)的目標現(xiàn)值和目標缺席指數(shù),表明信號檢測措施是最有用的績效指標。最后,觀察到優(yōu)越的記憶和匹配性能之間的分離。因此,超級識別器篩選程序應(yīng)該包括總結(jié)相關(guān)測試多次嘗試的總體指數(shù),允許個人在不同(有時非常具體)的任務(wù)上進行高度排序。
2
引言
目前的研究旨在檢驗高級人臉識別技能的一致性,無論是在同一過程的測試中,還是在評估不同過程的測試之間。
本次,評估了一組30名警察的表現(xiàn),他們此前曾接受過超級識別篩選,在兩項測試中至少一項超過了寬松的標準:CFMT測試和人臉匹配任務(wù)。這使我們能夠評估那些明顯精通記憶和匹配的人的人臉識別一致性,以及在這兩個過程中只有一個過程具有便利作用的人的人臉識別一致性。
所有警官都完成了五項測試:一項新的人臉記憶測試,該測試采用了cfmt范式,包括目標缺席試驗,這是人臉匹配任務(wù)的三個新版本,以及一種測試,要求參與者在同時呈現(xiàn)的顯示人群的圖像(“人群”任務(wù))中決定是否存在一個復合目標臉(由整體合成系統(tǒng)生成)。
我們包括了人群測試,以檢查是否熟練的人臉識別技能,如上述兩種測試中的任何一種,延伸到一個新穎的,更真實的世界警務(wù)任務(wù)。所有測試都經(jīng)過校準,以檢測光譜頂端的性能(允許至少三個與控制均值的標準差),使用外觀不同的自然人臉圖像。從參與者超過標準績效的次數(shù)和總體指數(shù)得分來考慮相關(guān)測試的一致性。
3
新框架方法
模型記憶測試
這一新的人臉記憶測試是對CFMT的一種適應(yīng),使用了在不同的日子和不同的環(huán)境中捕捉到的每一個人的自然彩色照片(如下圖)。
圖像被裁剪,以顯示從頸部以上的臉(圖像大小是8厘米高6厘米寬)。模型記憶測試(MMT)的完整描述可以在Bate等人提出的論文中找到。(Bate, S., Frowd, C., Bennetts, R., Hasshim, N., Murray, E., Bobak, A. K., Richards, S. (2018). Applied screening tests for the detection of superior face recognition. Cognitive Research: Principals and Implications. https://doi.org/10.1186/s41235‐018‐0116‐5, 3)
簡單地說,測試從一個與CFMT相似的編碼過程開始:對于六個目標面孔中的每一個,三個不同的人圖像(在不同的日期和不同的設(shè)置下拍攝)連續(xù)顯示3秒,然后立即進行三個測試試驗。在每個測試試驗中都會顯示三個面孔:一個編碼圖像和兩個錯誤的。在cfmt中,編碼階段以對六個目標面的20s回顧結(jié)束,同時呈現(xiàn)每個人的一個新的正面圖像。90個測試試驗(45個目標存在)隨后以隨機順序呈現(xiàn)。
在測試的前半部分,三分之一包含的圖像更接近于編碼階段使用的圖像,而在屏幕中斷后呈現(xiàn)的圖像則在更具挑戰(zhàn)性的條件下顯示目標(例如,有更多的胡須,或者面部被附件或視點的大變化遮住)。圖像保留在屏幕上,直到做出響應(yīng),并且沒有時間限制。
參與者可以針對每一次試驗做出目標在場或目標缺席的反應(yīng)。使用指示目標在三位一體中目標位置的相應(yīng)數(shù)字鍵(1-3)激發(fā)目標當前響應(yīng),而0鍵表示缺少目標的響應(yīng)。在這個測試中,有五種類型的響應(yīng)是可能的。對于目標目前的試驗,參與者可以正確識別目標臉(點擊),他們可能會錯誤地引發(fā)目標缺失的反應(yīng)(失誤),或者他們可以錯誤地識別一個錯誤者的臉(錯誤識別)。在沒有目標的試驗中,參與者可以引起正確的反應(yīng)(正確的拒絕)或錯誤地識別錯誤者的臉(假陽性)。我們記錄了每個參與者的每一次反應(yīng),并總結(jié)了點擊次數(shù)和正確的拒絕次數(shù),以計算出一個整體的準確性評分。
配對匹配實驗
為這項調(diào)查開發(fā)了三個新的項目管理小組。當(A)人臉在兩幅圖像中發(fā)生嚴重變化(即45°以上)時,(B)演員只在一幅圖像中戴眼鏡時,這些參與者是否有能力同時匹配一對男性白種人臉,而且(C)演員在一張照片中有胡須,但在另一張照片中剃得很干凈(見下圖)。
這三個區(qū)塊中的每一個都包含48項試驗,其中24項在身份上匹配,其余的則顯示了兩個不同的個體。所有圖片都是從谷歌圖像搜索中下載的,并被裁剪成從頸部向上顯示整張臉。根據(jù)彼此感知到的相似性對不匹配的人臉進行配對,并將所有圖像調(diào)整為10cm寬和14cm高。
參與者以一個平衡的順序完成了這三個塊,每個塊內(nèi)的試驗被隨機化。為了確保有效性,在作出反應(yīng)之前,會顯示刺激,并且沒有規(guī)定時限。參與者按下鍵來引出“相同”或“不同”的反應(yīng)。以點擊率(正確的“相同”回答的次數(shù))和正確的拒絕次數(shù)(正確的“不同的”回答的次數(shù))來計算分數(shù),并將其加在一起以保證整體的準確性。
人群匹配試驗
最后一次測試旨在復制一個非常具體的警務(wù)場景,即警官有一個綜合目標臉(使用EvoFIT:一個綜合系統(tǒng)生成),他們必須在人群中找到這個人。
簡而言之,最初的一組參與者按照預先存在的程序生成了目標復合刺激。這一過程開始時,參與者盡可能詳細地描述指定的目標臉(一半來自最后測試中使用的人群圖像,另一半來自最終測試中沒有使用的人群圖像),而不進行猜測。
實驗者使用特征描述標簽將這一信息記錄在人臉描述表上。然后向參與者展示一個與年齡和性別相適應(yīng)的數(shù)據(jù)庫,顯示一系列面部的內(nèi)部區(qū)域。參與者選擇的面孔與目標的整體外觀最匹配;這些面孔被組合在一起,選擇過程重復進行。
然后,他們選擇了最佳匹配項目,并使用“整體”(針對臉部的年齡、體重和總體外觀)和“形狀”(處理面部特征的大小和位置)工具對其進行了改進。最后,選擇了最匹配的外部特征集(頭發(fā)、耳朵和頸部),參與者最后有機會使用相同的整體和形狀工具來改善面部。
最后實驗選擇了32種復合材料,包括32項試驗,參與者同時在屏幕頂部觀看目標合成臉,并在下面的圖片中顯示25-40人在自然背景下(例如,音樂會或體育活動的觀眾;見下圖)。
組合人臉高3cm,寬2cm,人群圖像高9cm,寬13cm。參與者被要求決定目標面孔是否存在于每一人群中,按下鍵盤上的一個鍵來做出反應(yīng)。試驗按隨機順序顯示,沒有時間限制。命中和正確的拒絕被計算和總結(jié)整體準確性。
4
實驗結(jié)果
這項調(diào)查的主要目的是檢查不同測試之間的性能一致性,這些測試涉及相同的過程,以及度量不同進程的測試之間。由于現(xiàn)有的工作表明了在超級識別中目標-現(xiàn)在和目標-缺席性能的差異,分別輸入了每個測試的命中和正確拒絕的數(shù)據(jù)。主成分分析(PCA)的初始特征值表明,前三個因子解釋了方差的33.57%、23.39%和10.71%,其余8個因子的特征值小于1。2、3、4、5和6個因子的解分別使用因子負荷矩陣的varimax和oblimin旋轉(zhuǎn)進行了檢驗。5因素oblimin解決方案(解釋83.21%的方差)是首選的,因為它提供了最好的定義因子結(jié)構(gòu)(見下表)。
第一個因素來自于目標當前的措施:命中了PMT的三個塊,命中了MMT,以及CFMT的總體性能。第二個因素來自三個匹配塊的正確的拒絕分數(shù),以及來自CFMT的總體分數(shù)。在人群測試中,第三和第四個因素分別代表了成功和正確的拒絕;第五個因素對MMT的正確拒絕有很高的負載。下表顯示了一個完整的相關(guān)矩陣。
總之,這一分析表明:(A)兩種目標-現(xiàn)在的記憶測量是相關(guān)的,但目標-缺失記憶性能應(yīng)該獨立考慮;(B)匹配測試的三個塊是相關(guān)的,但目標-現(xiàn)在和目標-缺失的測試應(yīng)該再次被獨立地考慮;而且(C)在人群測試中,目標-現(xiàn)在和目標-缺失的表現(xiàn)都不同于所有其他的措施。這些調(diào)查結(jié)果被用來制定適當?shù)闹笖?shù),用以評估相關(guān)和無關(guān)措施之間業(yè)績的一致性。
人臉記憶性能一致性
在MMT上的總正確百分比是通過總結(jié)命中和正確的拒絕來計算的。每項措施的標準從控制平均數(shù)確定為1.96 SDS(見下表)。警官得分在53.33%~95.56%之間,有14人超標。這些人員中有11人按照CFMT的自由納入標準也優(yōu)于對照組(其中9人也超過了對照平均數(shù)的1.96 SDS),而3人沒有(得分明顯在典型范圍內(nèi):73.53%、80.39%和80.39%)。超過自由CFMT標準的12名官員(8名超過1.96 SDS)在MMT上沒有這樣做,得分從64.44%到80.00%不等(見下圖)。
The relationship between officers' performance on the CFMT+ and (a) overall accuracy score on the MMT and (b) percentage hits on the MMT. Control cut‐offs (1.5 SDs from the mean on the CFMT+ and 1.96 SDs on the MMT) are indicated by grey dashed lines. Summary of performance for (c) the top 10 performers according to the Memory Hits Index and (d) the 12 officers that surpassed control performance by at least 1.96 SDs on the MMT d′ measure
人臉匹配性能一致性
我們的下一組分析檢查了三個新的人臉匹配測試塊(即姿態(tài)、眼鏡和面部毛發(fā))的性能一致性。每個塊上所有參與者的命中、正確拒絕和總體準確性被總結(jié),并使用控制數(shù)據(jù)計算每個度量的規(guī)范。
再次設(shè)定為1.96 SDS以上的控制均值(見下表)。我們最初檢查了每個區(qū)塊的總體準確率。首先,觀察了那些在PMT篩選版中表現(xiàn)優(yōu)于控制的官員。在這20名警官中,15名超過了三個區(qū)塊中至少一個區(qū)的控制業(yè)績:三個區(qū)塊的控制成績優(yōu)于所有三個區(qū)塊(見下圖a),九個超過了任何兩個區(qū)塊的控制(見下圖b),三個超過了任何一個區(qū)塊的控制業(yè)績(見下圖c)。5在任何塊上都沒有超過控制(見下圖d)。接下來,觀察了未通過初步PMT篩選的10名軍官的表現(xiàn)。值得注意的是,在任何一個板塊,只有一名官員沒有超過控制標準,只有兩名官員超過了任何一個板塊的控制標準(見下圖e)。兩名警官超過了所有三個板塊的控制業(yè)績,五個超過了任何兩個板塊(見下圖f)??傮w而言,30名警官中只有5人在所有三個板塊都表現(xiàn)出一貫的高績效,而24人在任何一次嘗試中都超過了標準。
Consistency of officers' performance on the PMT at screening and in the three new blocks. Figures demonstrate those who outperformed controls at screening (according to the liberal 1.5 SD cut‐off); then by the more conservative 1.96 SD cut‐off on (a) all three blocks, (b) any two blocks, (c) any one block, and (d) no further block; and those who did not pass the initial screening criterion but outperformed controls on (e) only one or no block, or (f) on any two or three blocks
5
探討
主要做這個的原因,就是想通過以上一系列實驗,去挖掘經(jīng)驗豐富的警官對人臉識別的一個特性,從中發(fā)現(xiàn)平時我們科研沒有發(fā)現(xiàn)的問題。比如,我一朋友做顯著性檢測,如果只在實驗中通過搭建框架、訓練測試,得出結(jié)果,那只是看到一個理論的表現(xiàn),但是我朋友實驗室有專門的顯著性眼動儀,其可以通過現(xiàn)有模型的輔助,去人為進行實際實驗,觀察每一幅圖像的顯著性點及區(qū)域(說到這,我們平臺準備下期為大家?guī)盹@著性檢測),所以,本次分享的文獻有些乏味,但希望做人臉領(lǐng)域的小伙伴,可以通過實際生活中的一些經(jīng)驗,通過數(shù)學的方式應(yīng)用到模型當中,對實際場景的檢測或識別有一定的提升。
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。