2023年全球最矚目的熱潮非 ChatGPT 莫屬,這款 OpenAI 旗下的 AI 人工智能聊天機器人程式擁有龐大資料庫,以機器學習結合 GPT 大型語言模型,與用戶進行文字互動,協助人類生成所需的文字內容,更擁有編寫電腦程式碼之能力,強大能力成功技驚四座。
當大部分人享受 ChatGPT 所帶來的便利之際,可能有人開始擔心 AI 工具將取代大部分人類工作,然而極少人關注 ChatGPT 及類似 AI 助手程式潛在一定私隱 (Privacy) 風險。日前意大利私隱部門 The Italian Data Protection Authority (Garante per la protezione dei dati personali) 正式對 ChatGPT 出手,即時下令暫時禁止 ChatGPT 處理意大利人的個人資料,並開始調查營運商 OpenAI,而 OpenAI 需要在二十日內採取行動遵守禁令 (禁令原文)。
The Italian Data Protection Authority 就暫時禁用 ChatGPT 提出四大理據
(1) 早前 ChatGPT 發生用戶數據外洩,包含用戶對話內容及付款資訊
(2) OpenAI 欠缺法理基礎支持為訓練 AI 演算法而處理大量個人資料
(3) 根據測試結果,ChatGPT 不時提供不符合事實的答案,可見未克準確處理個人資料
(4) OpenAI 未有設置年齡驗證機制,就算私隱政策表明僅向十三歲以上兒童提供服務,仍有機會向兒童提供不適合其年齡與心智的內容
由 GDPR 出發
由於意大利屬歐盟成員國,因此分析此事件必須由歐盟的私隱法律 General Data Protection Regulation (簡稱 GDPR) 出發,GDPR 可說是世界上最嚴格的個人私隱法律,目的是保護個人資料 (Data Protection,又可譯成個人數據、個人信息)。即使企業本身處於歐洲以外 (例如 OpenAI 位於美國),一旦處理歐盟居民個人資料,或向其提供服務或貨物,同受 GDPR 監管。
本文使用的 OpenAI 私隱政策 (Privacy Policy) 以2023年3月14日版本為準,為執筆時最新版本。
(1) ChatGPT 承認收集及處理個人資料
OpenAI 的私隱政策明確指出,在提供服務 (包括 ChatGPT) 時,系統會收集及處理用戶所輸入的內容,可能包含個人資料 (Personal Information)。該政策同時清晰列出所有有機會收集的類型的個人資料類型及其來源,因篇幅所限,留待各位自行查閱。
私隱政策對用戶向 ChatGPT 輸入的資料稱為 “User Content",中文翻譯用戶內容,同時包括用戶向 OpenAI 提交的反饋。
(2) 重審個人資料定義,所有提問內容都受私隱法律保護?
任何情況下,個人資料的定義與應用非常重要,因為私隱法律僅保護個人資料,其餘數據與個人私隱無關,換言之非私隱法規保障範圍。聰明的讀者可能好奇,到底所有輸入內容都屬於受私隱法律保障的個人資料,還是只限指定內容?
Man 認為劃分用戶輸入內容之性質已經存在爭議,採用狹義分析,並不是用戶所有在 ChatGPT 輸入的內容必定屬於個人資料,歸根究底只有能夠識別 (或連同其他附加資訊識別) 自然人的資訊才可歸類為個人資料 (詳見 GDPR 官方定義),受私隱法律保護。比如說一位極其無聊的用戶提問 “為何 Nokia 失去手機市場龍頭地位",單是問題內容本身毫無個人資料可言,難與個人私隱拉上半點關係。
然而以上判斷暗藏缺陷,審慎且全面思考的話,從系統記錄 (log) 層面分析,所有用戶提交的文字內容皆由一位身分明確的自然人在指定時間發出 (甚至包含 IP 地址、用戶裝置等技術資訊),等同該用戶的個人行為記錄,不論內容包含個人資料與否,全部文字記錄可以連同其他已有資訊 (不要忘記用家帳戶內含電郵地址、電話號碼) 識別用戶個人身分,故應一律劃入個人資料,無須深究內容有否包括個人資料。此見解類似通訊程式的對話紀錄,因為 ChatGPT 使用方式與文字通訊無異,而一般社會共識同意所有個人對話內容屬於個人私隱,如果要逐字逐句分拆,恐怕完全違背我們一直以來的認知。
筆者本人偏向第二個看法,此時大家可能好奇為何 Man 如此執著,接下來的討論就會有答案。
(3) 意大利當局沒有反對使用個人資料提供答案,只反對用作訓練 AI
細讀上述四大理據,不難發現意大利當局未有反對 OpenAI 透過收集及處理用戶所輸入的個人資料提供 ChatGPT 服務 (即利用 AI 運算輸入內容給予答案),亦沒有挑戰 OpenAI 儲存有關內容。一旦禁止,此等 AI 工具根本完全沒有可能提供任何答案,必定波及現有 Apple Siri、Google Assistant 等人工智能助手,以及坊間大大小小的 chatbot,無一倖免。相反,當局目前著眼於 OpenAI 利用大量用戶數據訓練 AI 模型,直接指出 OpenAI 欠缺充足法理基礎支持此用途,但未有補充其他詳情佐證。
OpenAI 私隱政策表明用戶個人資料可能用於改良及分析服務 (improve and/or analyze the Services)、研究 (conduct research)。從科技角度出發,使用用戶提供的內容訓練 AI 助手及補充資料庫是理所當然的做法,這正正是機器學習 (Machine Learning) 的精髓所在,從不斷學習、吸收資訊進化,不止 ChatGPT,大部分 AI 助手也是如此誕生。話雖如此,在法律角度卻是另一回事,意大利當局的行動正好反映新興 AI 科技與個人私隱之矛盾與衝突,勢必引起新一波法律爭議。
(4) 法理依據
GDPR 要求所有合法個人資料處理必須符合至少一項指定法理依據 (Legal Basis),其中 Performance of Contract、Legitimate Interest、Consent 三者最為常用,有興趣的讀者可參閱 GDPR Article 6 原文了解一系列指定法理依據。OpenAI 私隱政策就所有個人資料處理活動一次過提出四項法理依據,但沒有就每項數據處理活動仔細交代相應之法理依據,似乎有搏大霧過關之嫌。筆者認為做法籠統不清且未如理想,難怪引起當局質疑。
大家必須明白,OpenAI 不能單憑根據 GDPR 拋出一堆法理依據便可過關,實際問題在於上述上述四項法理依據能否充分支持 OpenAI 的 AI 訓練工作。由於現有私隱政策使用大包圍寫法,加上當局新聞稿未有詳細交代當局觀點,現階段難以深入分析,有待雙方進一步交代。筆者相信此議題最具爭議性,而當局或法庭最終判決對日後整個 AI 行業提供重要方向。
根據 OpenAI 現有私隱政策的四項法理依據,筆者認為 Performance of Contract、Compliance with Legal Obligations 難以與訓練 AI 模型拉上合理關係,其餘兩項則存在討論空間,簡列如下:
- 到底 OpenAI 的合法利益 (Legitimate Interest) 是否包括使用用戶數據訓練 AI
- 假設用戶自願並明確同意 OpenAI 使用其個人資料作分析及訓練 AI 用途,能否成立足夠法理依據
誠然宏觀整個科技行業,使用用戶數據作分析用途乃家常便飯,大多數作業系統、瀏覽器、軟件均收集用戶使用數據,從而分析並改進產品及服務。部份大型企業開始使用 AI 演算法協助分析數據已是公開的事實,多年來未有因私隱法律被禁,萬一 OpenAI 不具法理依據訓練 AI 模型,屆時當局又會如何從中區分其他科技企業的做法呢?
對 OpenAI 而言,暫時的折衷解決方案不外乎暫停使用用戶輸入的內容訓練 ChatGPT,改為單純向用戶提供答案,有望藉緩兵之計繼續在歐盟運作。
(5) 匿名化是最佳出路?
承上文,私隱法律及執法機關只關心針對包含個人資料的收集及處理,換言之 OpenAI 可考慮徹底匿名化 (De-identification) 需要用作分析及訓練的用戶數據,仍可保留大部分訓練價值。匿名化指處理前移除所有個人資料,從而讓其餘資訊擺脫個人資料的標籤,無須再受私隱法規管,換言之法理依據等法律要求統統拋諸腦後。
事實上世界上不少企業都採取此策略,既保留關鍵資料,又擺脫私隱法律的束縛,從此自由用作任何用途。例如餐飲集團想分析交易紀錄,先移除顧客名稱、會員卡號碼、信用卡資訊等個人資訊後,只保留消費金額、餐點、付款方式,管理層同樣可深入了解每間餐廳經營狀況,可見匿名化工作有助保障個人私隱,又無損企業利益。
事實上 OpenAI 私隱政策已經提及匿名化處理,卻未曾交代會否替所有個人資料匿名化,以及匿名化的方式與程度,有待官方進一步交代方可作下一步評論。
(6) 匿名化絕不簡單,實際上困難重重
Man 認為,真正問題在於匿名化的程度。因應 ChatGPT 獨特的運作原理,AI 的訓練素材為用戶輸入的文字內容,有別於傳統技術數據 (Technical Data) 分析 (例如地區、語言、裝置、瀏覽器)。鑑於用戶提交內容可能包含一定個人資料,Man 就此提出兩種程度的匿名化處理:- 初級匿名化: 只移除含有個人資料的傳統技術數據 (例如用戶身分、IP 地址),不處理對話內容
- 進階匿名化: 完成初級匿名化後,審視所有用戶提交內容,再移除當中所有個人資料
回溯本文第二點,用戶提交的內容可分為兩種,第一種不含有個人資料,第二種則相反。
第一種對匿名化的標準較為輕鬆簡單,經過初級匿名化後,用作輔助識別用戶身分的技術數據不復存在,文字內容無法辨識任何人士,不再屬於個人資料。
第二種內容就必須使用進階匿名化,問題出自初級匿名化只能夠移除技術數據,仍然完整保留包含個人資料的提問內容,依然屬於受私隱法規監管的個人資料。舉個例子,近日有網站指導用戶向 ChatGPT 輸入個人履歷,指令 ChatGPT 製作 CV 及求職信,就算 OpenAI 事後刪除傳統技術數據,對話內容一樣含有個人資料,嚴格來說初級匿名化完全不合格。
由此可見,我們應該留意到底 OpenAI 私隱政策中匿名化工序之具體情況,由於目前未知詳情,故不作評論。除此之外,其他 AI 營運公司的處理手法同樣值得注意,絕非 OpenAI 單獨面對的挑戰。
回歸實際情況,初級匿名化只需簡單人手操作,或由自動程式代勞,惟資料庫夾雜兩種內容,實在難以統一處理。當然,OpenAI 可利用 AI 程式實現進階匿名化,由系統自動分類內容、刪除個人資料,無奈技術並未完善,容易出現漏網之魚,錯誤保留個人資料。
無可否認,由人手負責進階匿名化才是最完美、最安全的做法,徹底將用戶內容脫離個人資料行列。然而 ChatGPT 用戶眾多,每日接收無數問題,就算擁有數以萬計的員工日以繼夜負責匿名化工作,恐怕未能應付,顯然不切合現實,妨礙科技發展。在現實限制與個人私隱之間,OpenAI 等科技企業與各國政府的角力,值得我們拭目以待。
綜上所述,我們才發現匿名化似乎不是真正解決私隱法律限制的良方。
(7) 未成年人士個人資料: 當局未有發現真正漏洞
意大利當局同時指出 OpenAI 未有為 ChatGPT 設置年齡驗證機制,就算私隱政策表明僅向十三歲以上兒童提供服務,仍有機會向兒童提供不適合其年齡與心智的內容。Man 不太認同以上論點及方向,反而認為真正爭議在於收集與處理兒童個人資料所產生的私隱問題。假如以上論點成立,到時各大互聯網服務企業亦一樣遭殃,例如主流搜尋引擎、影片分享平台都沒有設置年齡驗證機制,有機會向兒童使用者提供不合適內容,理應被禁。
然而當局沒有就收集及處理兒童個人資料的要求提出質詢,GDPR 界定十六歲以下人士為未成年,並且規定資訊處理者必須向其監護人取得許可,亦應盡可行辦法驗證監護人身分,換言之未成年人士自行給予的同意並不具任何法律效力。
OpenAI 的私隱政策出現明顯漏洞,無疑忽略十三歲至十六歲的未成年歐盟用戶。如果 OpenAI 沒有向監護人取得明確許可,收集或處理這批未成年用戶的個人資料已經違反 GDPR,因此意大利當局未有察覺此漏洞實在教人摸不著頭腦。
與此同時,GDPR 要求資料控制者對未成年個人資料給予特別保護 (Specific Protection),尤其是向未成年人直接提供服務。至於 OpenAI 有沒有為十三歲至十六歲用戶的資料提供特別保護,固然無從得知。
題外話: 個人私隱以外,商業機密同處極大風險
按照 ChatGPT 對話式架構,用戶可向系統發送任意內容,問題在於用戶提問內容有機會包括用戶或他人之個人資料,以及商業機密。個人資料涉及個人私隱不在話下,商業機密反而容易被人忽略,然而背後風險不容小覷。
對商業機構而言,員工使用 ChatGPT 或類似 AI 工具協助工作或構成一定外洩風險,尤其企業內部重要財政數據。如上文所述,OpenAI 收集及儲存用戶輸入的內容,有機會用於訓練 AI 功能,甚至匯入 ChatGPT 資料庫,日後向其他用戶披露,萬一包含商業機密,後果可大可小。
此危機絕非空談,日前有新聞報導 Samsung 引入 ChatGPT 後,二十日內發生數次員工意外輸入公司內部機密資訊及程式碼,引發危機。再舉一個虛構例子,一名 marketing 員工指令 ChatGPT 為公司一款即將上市的新手機起草一篇新聞稿,過程中如實輸入該產品的售價、上市日期、銷售渠道,原來一個看似簡單的工作已經暗藏洶湧。
值得留意,法律上商業資訊並不屬於個人資料,所以不受私隱法律所監管及保障,也解釋為何意大利當局未有關注此風險。話雖如此,此問題仍然值得各行各業深思。
原文連結
延伸閱讀: 給十九歲的我: 淺談私隱法律對同意、未成年資料的規管