為了保障公共監(jiān)視的隱私,MIT科學家主動添加噪音數(shù)據(jù),分析誤差范圍控制在2%
公共攝像頭的邊界在哪?
相信大家還記得2017年的“水滴直播”,當時該視頻直播平臺上出現(xiàn)了全國多地校園視頻監(jiān)控的直播畫面,被直播的場景包括教室、食堂、操場甚至宿舍,清晰的畫面和聲音讓人仿佛置身校園中。
據(jù)了解,用戶只要購買了某公司的視頻監(jiān)控攝像頭產(chǎn)品,就可以主動選擇把監(jiān)控內(nèi)容分享到該平臺上。
對于此,有看到自己的身影出現(xiàn)在直播畫面中的網(wǎng)友直說“太可怕了”,也有網(wǎng)友表示,“如果完全不知道自己被直播了,這肯定侵犯了隱私權(quán)”。
中國傳媒大學法律系副教授劉文杰評論到,“在不影響社會秩序的前提下,個人在公共場所仍然有權(quán)保持一定的行動自由和安寧”。
但如今面對越來越多的公共監(jiān)控攝像頭,人們的隱私又應該如何才能得到保證呢?
最近,MIT的研究人員就開發(fā)出了一個系統(tǒng),能夠允許分析師提交視頻數(shù)據(jù)查詢,并在最終結(jié)果中添加一些額外數(shù)據(jù),也就是噪音,以確保個人不會被識別。
據(jù)了解,該系統(tǒng)建立在對隱私的正式定義之上,也即“差異隱私(differential privacy),這允許系統(tǒng)在不泄露個人身份信息的情況下訪問有關(guān)私人數(shù)據(jù)的匯總統(tǒng)計數(shù)據(jù)。
該研究已經(jīng)以論文的形式進行了發(fā)表。
論文鏈接:
https://arxiv.org/abs/2106.12083
保護隱私的監(jiān)控視頻分析系統(tǒng),誤差僅2%
目前,安裝公共攝像頭的目的更多還是為了安全考慮,這些攝像頭已經(jīng)變得比過去那些帶顆粒狀的照片要成熟得多了。
而自疫情爆發(fā)以來,視頻監(jiān)控還可以幫助衛(wèi)生人員測量戴口罩的人員比例,以及幫助交通部門監(jiān)測車輛、自行車和行人的密度和流量,同時為企業(yè)提供對購物行為的更好理解。
但是在這一切的便利之下,為什么隱私會是最后才來思考的因素呢?
現(xiàn)在已經(jīng)有一些公司會在視頻中模糊人臉,但這樣類似的做法不僅使分析師無法驗證研究問題,比如他們是否按要求佩戴了口罩,而且這樣的方式并不總是奏效,因為系統(tǒng)可能會跟丟一些人臉數(shù)據(jù)。
針對這一現(xiàn)狀,麻省理工學院計算機科學與人工智能實驗室(CSAIL)的研究人員與其他機構(gòu)合作,共同開發(fā)了一個系統(tǒng)Privid。Privid能夠讓分析師提交視頻數(shù)據(jù)查詢,并在最終結(jié)果中加入噪音數(shù)據(jù),以確保個人身份無法被識別,以此更好地保證出現(xiàn)在監(jiān)控視頻片段的人的隱私。
通常情況下,分析師需要訪問整個視頻,才能得到要實現(xiàn)或者驗證的目的,但Privid的出現(xiàn)改變了這一情況。
對于分析師而言,他們?nèi)匀豢梢垣@得需要的信息,但訪問權(quán)得到了限制,這對一些惡意的分析師來說更是如此。為了實現(xiàn)這一點,Privid不再一次性在整個視頻上運行代碼,而是將視頻分成小塊,在每塊上運行處理代碼。
同時最終的結(jié)果并不是直接從每個片段中獲得,而是需要將這些片段聚合起來,這其中就包括一些額外添加的噪音。也正是因為噪音數(shù)據(jù)的加入,最終結(jié)果的信息大概會存在2%左右的誤差。
例如,代碼可能會輸出在每個視頻片段中觀察到的人數(shù),聚合之后得到“總和”,以計算戴口罩的總?cè)藬?shù),或一個“平均值”,以估計人群密度。
好在,Privid允許分析師使用自己的深度神經(jīng)網(wǎng)絡,這讓分析師可以更加靈活地提出Privid設計者所沒有預料到的問題。在各種視頻和查詢中,Privid的準確率在非私有系統(tǒng)的79%-99%之間。
麻省理工學院CSAIL博士生、Privid論文的主要作者Frank Cangialosi說,“我們處于一個攝像頭幾乎無處不在的時代。試想每個街角都有攝像頭,你去的每個地方都有攝像頭,那如果有人獲取到了這些數(shù)據(jù),他們就能建立起某個人出現(xiàn)在某些地點的時間線。人們已經(jīng)在擔心GPS的位置隱私問題,而視頻數(shù)據(jù)的匯總不僅可以捕捉到你的位置歷史,還可以捕捉到你在這些地點的情緒和行為等等”。
添加噪音也是一門學問
除此之外,還值得注意的一點是,論文引入了一個新的關(guān)于隱私的概念。
“基于期限的隱私”(duration-based privacy)將隱私的定義與隱私的執(zhí)行脫鉤。在二者混為一談的情況下,如果隱私目標是保護所有人,那么執(zhí)行機制需要去找到要保護的人,但并不能保證效果。有了這個機制,就不再需要指定所有的東西,也無需隱藏更多的信息。
比方說,我們現(xiàn)在有一段俯瞰一條街道的視頻。Alice和Bob兩個分析師都表示他們想計算每小時經(jīng)過街道的人數(shù),于是他們提交了一個視頻處理模塊,并要求進行匯總。
第一個分析師Alice是來自城市規(guī)劃部門,他們希望利用這些信息來了解人流模式,為城市規(guī)劃人行道。他們的模型會對人進行計數(shù),并為每個視頻片段輸出這個計數(shù)。
另一個分析員Bob則是惡意的。他們只希望識別每一次某個人經(jīng)過攝像頭的時間。他們提交的模型就只是在尋找這個人的臉,如果這個人在場系統(tǒng)會輸出一個大數(shù)字,否則就是零。他們希望如果這個人在場,總和會是非零的。
從Privid的角度來看,這兩個查詢看起來是一樣的。很難可靠地確定他們的模型內(nèi)部可能在做什么,或者分析員希望將數(shù)據(jù)用于什么。這就需要噪音登場了。
Privid執(zhí)行了這兩個查詢,并為每個查詢添加了相同數(shù)量的噪聲。在第一種情況下,因為Alice是在計算所有的人,這個噪音只會對結(jié)果產(chǎn)生很小的影響,但很可能不會影響到有用性。
但是在第二種情況下,因為Bob尋找的是一個特定的信號,那么額外添加的噪音就足以使他們無法確定這個人的具體位置。如果他們看到了一個非零的結(jié)果,可能是因為這個人確實在那里,或者是因為模型輸出了“零”,但噪聲使其成為非零。Privid不需要知道任何關(guān)于這個人出現(xiàn)的時間或地點的信息,系統(tǒng)只需要知道這個人可能出現(xiàn)的時間的一個粗略的上限,這比弄清楚確切的位置更容易說明,而這是先前的方法所依賴的。
不過還存在一個問題,那就是要添加多少噪音。
最理想的情況當然是,添加的噪音恰好足以隱藏每個人,但又不至于多到對分析人員毫無用處。向數(shù)據(jù)添加噪音并堅持在時間窗口上進行查詢,意味著結(jié)果不會那樣準確,但并不影響實際參考價值,同時保障更好的隱私。
正如研究人員所總結(jié)的,“在建立Privid時,我們不主張增加公共視頻監(jiān)控和分析,但無法否認的是這類研究已經(jīng)相當普遍”,因此,在這類分析繼續(xù)保持主流增長之勢時,如何改善公共監(jiān)視的隱私環(huán)境,將會成為未來的一大主流課題。
相關(guān)報道:
https://www.csail.mit.edu/news/security-tool-guarantees-privacy-surveillance-footagehttp://www.xinhuanet.com/info/2017-05/11/c_136273243.htm
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。