數位個資四散的時代，匿名也拯救不了資料外洩

文／林冠廷 (OCF Lab)

如果你是在意個人隱私的網路使用者，閱讀各網路服務的隱私權條款時，一定看過類似的句子：「我們會以匿名化格式，與行銷合作夥伴以及廣告商分享您的個人資料。」但是，所謂的「匿名」，恐怕無法保證「你的個資不被發現」。

圖片來源：Photo by **Gle n Carrie** on Unsplash

「匿名」顧名思義，應該至少代表各筆資料的主人姓名不被公開。不過光是把姓名移除的「匿名化」其實遠遠不足，因為就算姓名、身分證字號、聯絡方式通通隱藏起來，只要將使用者提供的其他資訊串在一起，照樣能辨別哪筆資料屬於誰。

匿名資訊好危險，三個無傷大雅的資訊就能暴露身分？

早在 2007 年就有研究指出，因為每個人的品味差異甚廣，光是透過在 Netflix 累積的幾部電影評分資訊，辨識個人身分的效果，就跟類似於身分證號碼的社會安全碼一樣。

不同研究都指出相近結論。倫敦帝國學院的研究人員伊夫——亞歷山大．達蒙特喬耶（Yves-Alexandre de Montjoye）參與的研究團隊，利用了包含美國人口普查在內共 210 個資料集，建立了機器學習模型，分析出每人個資被洩露的可能性。

對於一個居住在美國麻州的人，只要收集了關於此人的 15 種人口屬性（demographic attributes）資訊，就有 99.98% 的機率，在任何匿名化的資料庫中找到。

15 種屬性聽起來很多，但即使只有郵遞區號、性別與生日 3 種屬性，就有高達 81% 的可能性在匿名資料庫中找到這名苦主的資訊。達蒙特喬耶表示：「問題在於我們覺得當資料匿名化就是安全的。組織與公司告訴我們安全，但這個［研究］證明其實不然。」

網路上各種匿名化資料庫俯拾皆是，雖然易於連結回個人身分的匿名資訊，幫助紐約時報記者揭露川普早年的退稅紀錄，可是隱私與公益僅一線之隔，對多數民眾來說，這種資料庫只是暴露敏感資訊的一顆顆未爆彈。

想防隱私被操控，或許可以欺騙AI

如果覺得我們的隱私危在旦夕，要怎麼保護資料？經營隱私業務的公司 Privitar 的研究負責人Charlie Cabot 說，複雜化的數學模型，可以在收集用戶秘密的同時，難以回溯到本人資訊，不傷害到他們的個人隱私。這項技術，也即將在明年正式用來保護美國人口普查的資料庫。

新技術或許可行，但必須仰賴資料庫業者的良心。如果服務提供商沒有引進保護機制，我們的匿名資料仍然有暴露風險。

邪惡商人甚至可以使用人工智慧，從原本資料庫裡面看似無傷大雅的內容，推測出我們沒有提供的資訊，不限於推測出個人身分。像是鬧得轟轟烈烈的臉書劍橋分析（Cambridge Analytica）案，就是透過使用者的社交媒體資訊，猜到我們的政治立場。

面對人工智慧技術的威脅，使用者可能要用更極端的方式，直接挑戰人工智慧的分析盲點。科學家把這種方法，稱為「對抗性範例」（adversarial examples）。舉例來說，目前 AI 辨識圖片的能力強大，但是只要修改幾個小小的像素，就能讓 AI 分不清楚兔子和烏龜的差別。

杜克大學研究員 Neil Gong 就說，「攻擊者愈來愈常使用機器學習危及用戶隱私，他們指出了機器學習的力量，但也透露其弱點。我們可以將『對抗性範例』這種漏洞，轉化成保護我們隱私的武器。」

「對抗性範例」如何誤導電腦

為了驗證對抗性範例 (adversarial examples) 是否也對保護隱私有所助益，杜克大學的研究者先是建立了一個機器學習模型，收集自願公開所在位置的用戶資訊，並從其他使用者在Google 應用程式商店中的評論，猜測他們居住的城市。

結果相當有用。原本上千筆的資訊，就足以讓 AI 猜測城市的準確率達到 44%，但只要在目標用戶的評論中增加三筆假的誤導資訊，或是刪除一些評論，AI 就難以預測相同資訊。

在其他學術機構，有研究者發現我們使用的 Tor 等匿名上網工具，攻擊者只要透過網路流量資料所組成的「網路指紋」，就能分析用戶正在連接哪些網站。但是利用「對抗性範例」在網路指紋加入虛假與誘導性的流量之後，攻擊就難以為繼了。「對抗性範例」的缺點在於，一但原本攻擊者發現自己被欺騙，他們就能利用這些範例進行「對抗性學習」（adversarial training），讓原本的機器學習模型魔高一丈，重新找出使用者資訊。

Gong 對此保持樂觀態度：「我們還是可以調整我們的對抗性範例來避免這些方法，我們總是可以找到打擊他們的對抗性範例。」對抗性範例與對抗性學習就像貓捉老鼠的遊戲，只要一方變強，另一方就會調整自己，試圖取得優勢。

保護自己的隱私，從拒絕交出100% 真實個資開始

現在資訊世界處處都想在分析個資，變成牟利工具。但作為資訊的掌控者，我們只要不交出完全真實的資訊，商人與政府就拿我們沒轍。

比方網路上大量號稱保密的學術研究問卷，偷懶使用 Google 文件的表單服務，但 Google 的隱私權條款明文指出他們收集用戶「使用 Google 服務時建立、上傳，或從其他人處收到的內容，包括您撰寫或收到的電子郵件、儲存的相片和影片、建立的文件和試算表」，因此，你如果不想被 Google 追蹤，或許一開始就不該填寫這些問卷。

此外，臉書上種種個人喜好，每次瀏覽網站時同意網站在電腦中儲存的 cookies，註冊線上購物留下的聯絡個資，看 YouTube 時記錄的觀影動態，全部都是你在日常生活中自願交出來的資訊，也通通成為商業公司的財產。

精明的使用者如果不想被這些公司操控，現在就應該開始研讀個資法所保障的法律權益，以及網路資安撇步。使用服務時避免填寫不必要的資訊，開啟第二個瀏覽器、VPN 等服務，刪除 cookies 隱藏行蹤，甚至偶爾可以在法律與道德允許的情況下給出「假資訊」，例如點一些你沒有興趣的影片讚，或是宣稱你同時對不同陣營的政治人物都有投票意願，讓自己的隱私多點保障。

在快速方便的數位時代，有句俗諺比起以往更顯警世：「免費的最貴。」當大量免費功能一一推出，民眾自然被吸引，然而免費功能的背後，一堆含糊不清的隱私、資料政策遍夾在其中。但我們都已不可能回頭切斷網路，重新回到無科技生活，多多了解自己選用的各類數位服務，而不是盲目使用，才是數位時代的處事方針。

本文章授權條款為以下：
文章發佈 48 小時內，採創用 CC BY-NC-ND (姓名標示-非商業性-禁止改作) 3.0 台灣。
文章發佈 48 小時後，採創用 CC BY (姓名標示) 3.0 台灣。

※本文章為 OCF Lab 與《天下》雜誌合作的專欄：駭！公民，同步刊載於《天下》雜誌網站，標題和前言與《天下》刊出版本略有不同。

OCF Lab 開放實驗室

OPEN! 讓開源、開放的數位科技成為社會正向發展的可能性！

數位個資四散的時代，匿名也拯救不了資料外洩

匿名資訊好危險，三個無傷大雅的資訊就能暴露身分？

想防隱私被操控，或許可以欺騙AI

「對抗性範例」如何誤導電腦

保護自己的隱私，從拒絕交出100% 真實個資開始

發表留言取消回覆

匿名資訊好危險，三個無傷大雅的資訊就能暴露身分？

想防隱私被操控，或許可以欺騙AI

「對抗性範例」如何誤導電腦

保護自己的隱私，從拒絕交出100% 真實個資開始

分享此文：

相關

發表留言 取消回覆

發表留言取消回覆