文/林冠廷 (OCF Lab)
如果你是在意個人隱私的網路使用者,閱讀各網路服務的隱私權條款時,一定看過類似的句子:「我們會以匿名化格式,與行銷合作夥伴以及廣告商分享您的個人資料。」但是,所謂的「匿名」,恐怕無法保證「你的個資不被發現」。

「匿名」顧名思義,應該至少代表各筆資料的主人姓名不被公開。不過光是把姓名移除的「匿名化」其實遠遠不足,因為就算姓名、身分證字號、聯絡方式通通隱藏起來,只要將使用者提供的其他資訊串在一起,照樣能辨別哪筆資料屬於誰。
匿名資訊好危險,三個無傷大雅的資訊就能暴露身分?
早在 2007 年就有研究指出,因為每個人的品味差異甚廣,光是透過在 Netflix 累積的幾部電影評分資訊,辨識個人身分的效果,就跟類似於身分證號碼的社會安全碼一樣。
不同研究都指出相近結論。倫敦帝國學院的研究人員伊夫——亞歷山大.達蒙特喬耶(Yves-Alexandre de Montjoye)參與的研究團隊,利用了包含美國人口普查在內共 210 個資料集,建立了機器學習模型,分析出每人個資被洩露的可能性。
對於一個居住在美國麻州的人,只要收集了關於此人的 15 種人口屬性(demographic attributes)資訊,就有 99.98% 的機率,在任何匿名化的資料庫中找到。
15 種屬性聽起來很多,但即使只有郵遞區號、性別與生日 3 種屬性,就有高達 81% 的可能性在匿名資料庫中找到這名苦主的資訊。達蒙特喬耶表示:「問題在於我們覺得當資料匿名化就是安全的。組織與公司告訴我們安全,但這個[研究]證明其實不然。」
網路上各種匿名化資料庫俯拾皆是,雖然易於連結回個人身分的匿名資訊,幫助紐約時報記者揭露川普早年的退稅紀錄,可是隱私與公益僅一線之隔,對多數民眾來說,這種資料庫只是暴露敏感資訊的一顆顆未爆彈。
想防隱私被操控,或許可以欺騙AI
如果覺得我們的隱私危在旦夕,要怎麼保護資料?經營隱私業務的公司 Privitar 的研究負責人Charlie Cabot 說,複雜化的數學模型,可以在收集用戶秘密的同時,難以回溯到本人資訊,不傷害到他們的個人隱私。這項技術,也即將在明年正式用來保護美國人口普查的資料庫。
新技術或許可行,但必須仰賴資料庫業者的良心。如果服務提供商沒有引進保護機制,我們的匿名資料仍然有暴露風險。
邪惡商人甚至可以使用人工智慧,從原本資料庫裡面看似無傷大雅的內容,推測出我們沒有提供的資訊,不限於推測出個人身分。像是鬧得轟轟烈烈的臉書劍橋分析(Cambridge Analytica)案,就是透過使用者的社交媒體資訊,猜到我們的政治立場。
面對人工智慧技術的威脅,使用者可能要用更極端的方式,直接挑戰人工智慧的分析盲點。科學家把這種方法,稱為「對抗性範例」(adversarial examples)。舉例來說,目前 AI 辨識圖片的能力強大,但是只要修改幾個小小的像素,就能讓 AI 分不清楚兔子和烏龜的差別。
杜克大學研究員 Neil Gong 就說,「攻擊者愈來愈常使用機器學習危及用戶隱私,他們指出了機器學習的力量,但也透露其弱點。我們可以將『對抗性範例』這種漏洞,轉化成保護我們隱私的武器。」
「對抗性範例」如何誤導電腦
為了驗證對抗性範例 (adversarial examples) 是否也對保護隱私有所助益,杜克大學的研究者先是建立了一個機器學習模型,收集自願公開所在位置的用戶資訊,並從其他使用者在Google 應用程式商店中的評論,猜測他們居住的城市。
結果相當有用。原本上千筆的資訊,就足以讓 AI 猜測城市的準確率達到 44%,但只要在目標用戶的評論中增加三筆假的誤導資訊,或是刪除一些評論,AI 就難以預測相同資訊。
在其他學術機構,有研究者發現我們使用的 Tor 等匿名上網工具,攻擊者只要透過網路流量資料所組成的「網路指紋」,就能分析用戶正在連接哪些網站。但是利用「對抗性範例」在網路指紋加入虛假與誘導性的流量之後,攻擊就難以為繼了。「對抗性範例」的缺點在於,一但原本攻擊者發現自己被欺騙,他們就能利用這些範例進行「對抗性學習」(adversarial training),讓原本的機器學習模型魔高一丈,重新找出使用者資訊。
Gong 對此保持樂觀態度:「我們還是可以調整我們的對抗性範例來避免這些方法,我們總是可以找到打擊他們的對抗性範例。」對抗性範例與對抗性學習就像貓捉老鼠的遊戲,只要一方變強,另一方就會調整自己,試圖取得優勢。
保護自己的隱私,從拒絕交出100% 真實個資開始
現在資訊世界處處都想在分析個資,變成牟利工具。但作為資訊的掌控者,我們只要不交出完全真實的資訊,商人與政府就拿我們沒轍。
比方網路上大量號稱保密的學術研究問卷,偷懶使用 Google 文件的表單服務,但 Google 的隱私權條款明文指出他們收集用戶「使用 Google 服務時建立、上傳,或從其他人處收到的內容,包括您撰寫或收到的電子郵件、儲存的相片和影片、建立的文件和試算表」,因此,你如果不想被 Google 追蹤,或許一開始就不該填寫這些問卷。
此外,臉書上種種個人喜好,每次瀏覽網站時同意網站在電腦中儲存的 cookies,註冊線上購物留下的聯絡個資,看 YouTube 時記錄的觀影動態,全部都是你在日常生活中自願交出來的資訊,也通通成為商業公司的財產。
精明的使用者如果不想被這些公司操控,現在就應該開始研讀個資法所保障的法律權益,以及網路資安撇步。使用服務時避免填寫不必要的資訊,開啟第二個瀏覽器、VPN 等服務,刪除 cookies 隱藏行蹤,甚至偶爾可以在法律與道德允許的情況下給出「假資訊」,例如點一些你沒有興趣的影片讚,或是宣稱你同時對不同陣營的政治人物都有投票意願,讓自己的隱私多點保障。
在快速方便的數位時代,有句俗諺比起以往更顯警世:「免費的最貴。」當大量免費功能一一推出,民眾自然被吸引,然而免費功能的背後,一堆含糊不清的隱私、資料政策遍夾在其中。但我們都已不可能回頭切斷網路,重新回到無科技生活,多多了解自己選用的各類數位服務,而不是盲目使用,才是數位時代的處事方針。
本文章授權條款為以下:
文章發佈 48 小時內,採創用 CC BY-NC-ND (姓名標示-非商業性-禁止改作) 3.0 台灣。
文章發佈 48 小時後,採創用 CC BY (姓名標示) 3.0 台灣。
※本文章為 OCF Lab 與《天下》雜誌合作的專欄:駭!公民,同步刊載於《天下》雜誌網站,標題和前言與《天下》刊出版本略有不同。
