2018-06-29
AI發展挑戰 隱私保護與法規
AI的本質即在於透過分析大量的資料,而作出符合邏輯的理性判斷,為進行更全面的資料分析,AI對於個人資料的進一步蒐集與利用,即可能造成個資侵犯的風險。未來AI勢必將從被動的資料處理者,逐漸成為資料控制者,因此賦予AI個資保護的義務就應當提高,未來AI的創新必須以保障個人隱私為出發點,而不是以個人資料與隱私的犧牲作為其不斷進步的代價。
作者簡介:鄭嘉逸
財團法人資訊工業策進會科技法律研究所法律價值拓展中心 研究員
前言
近年來,人工智慧(Artificial Intelligence, AI)已成為全球焦點,依據英國科學政府辦公室(Government Office for Science)對AI之定義,係指分析資料並建構模型,並由此預測(predict)或預料(anticipate)未來可能發生之事件。在資訊科學領域對於資訊階層(information hierarchy)的研究中,學者認為,智慧的基本表現是來自於對環境的感知,而做出決定與行動;更進階的智慧則具有識別對象與事件的能力,將知識轉化為統一適用的世界模型(world model),適用於未來的世界,並可在複雜的狀況下,理智地作出決策。
AI的本質即在於透過分析大量的資料,而作出符合邏輯的理性判斷,為進行更全面的資料分析,AI對於個人資料的進一步蒐集與利用,即可能造成個資侵犯的風險。本文以下由2017年英國資訊委員辦公室 (Information Commissioner’s Office, ICO)裁定英國皇家免費醫療體系(The Royal Free NHS, NHS)與Google DeepMind合作而違反資料保護法之案例,探討AI時代之個資保護議題。
壹、DeepMind之案例與爭議
DeepMind原為英國研發機器學習之新創公司,後來為Google公司所收購,做為其拓展AI研發版圖之重要角色。2015年,Google與NHS簽署一紙資料分享協議,此協議授權DeepMind可以存取NHS旗下3家醫院共160萬病患近五年所有的醫療資訊,而DeepMind則協助開發一個名為Streams的應用程式,用以管理「急性腎損傷」(Acute Kidney Injury, AKI)這項疾病。藉由病患醫療資料分析,可透過Streams將可能罹患AKI的病患資訊,發送早期預警通知給醫師及護理人員,達到降低AKI病患的死亡率之目的。而在此一單純的資料分享協議下,卻引發四項重大的個資保護爭議。
一、資料分享之程序爭議
在本案例中,進行分享的資料為病患之醫療資訊,向來被認為具有高度敏感性資訊,但並非完全不得分享。首先,就英國資料保護法之規範,雙方應完成隱私影響評估(Privacy Impact Assessment, PIA),具體說明資料運用目標下,如何最小化的轉移資料與可能造成的隱私侵害;其次,英國健康研究署(Health Research Authority, HRA)可以經由保密諮詢小組(Confidentiality Advisory Group, CAG)的專案評估,核准基於醫療研究目的的個人資訊分享;第三,如醫療資訊的分享是透過特定的醫療器材,亦可在醫療及保健產品管理局(Medicines and Healthcare products Regulatory Agency, MHRA)核准醫材時,一併同意資料分享。然而NHS與DeepMind並未諮詢過前述的3個機關,其隱私影響評估也缺乏資料轉移的必要性評估,僅憑雙方簽訂的資訊分享協議,即開始進行移轉160萬病人過去五年的完整病歷資料。
二、醫療資料利用的合理性
DeepMind在本案例中所開發之「Streams」程式,是依據NHS的腎臟科醫師與生物化學學者所開發的”AKI檢測標準化流程”,透過病患的血液檢驗報告進行評估,且不包括病患過往的病史。因此,DeepMind的主要任務是透過資料的分析,彌補AKI標準檢測方式的不足。然而,依據DeepMind與NHS的資料分享協議及後續雙方的合作備忘錄,DeepMind的實際工作除了AKI檢測之外,亦包含「不限於AKI的即時醫療分析、檢測、診斷、治療之支援系統」,甚至是可根據當下病患的情況、住院情形等,調整第一線醫療人力。
當AI被用來解決更多問題時,資料處理的範圍理應有相對的擴張,所衍生的問題是「到底AI需要何種與多少數量的資料才足以進行相關的問題評估?」英國NHS體系有一套病患資料處理機制的規則(Caldicott Principles),當中有7條準則要求醫療資料的使用應有正當化使用目的、非絕對必要不使用、最小使用原則、接取管制、遵守法律、資料保密等等義務。在本案中,DeepMind顯然無法對其僅進行AKI檢測,卻移轉及使用如此巨量的資料提出合理的說明,而存在侵害個人資料的風險。
另一個受關注的議題在於資料處理的目的,原則上必須基於特定的目的,如醫療研究、預防醫療等。換言之,以特定目的蒐集的資料只能被應用在同一目的的資料處理上,並且禁止目的外之利用,此亦與歐盟GDPR(General Data Protection Regulation)第6條第4項相符。在此一案例中,將腎臟疾病患者的醫療資訊被用於其他目的,例如醫院人力管理上,究應屬同一目的或目的外利用,實有爭議,特別是該個人資料的取得與處理並未經過當事人明示之同意,更增添取得或處理個人資料的爭議性。
三、DeepMind於個人資料的角色爭議
英國對於醫療資訊的蒐集及處理,其基本原則為「特定病患」與「特定醫療人員」之間是否有直接照護關係,但此僅為默示同意,若病患明確表達拒絕,則其醫療資訊仍不能被蒐集與處理。因此,DeepMind如未能與病患間成立直接照護關係,即必須取得病患同意才能進行資料處理。就本案例而論,對於須進行AKI檢測的病患,可以將Streams視為醫療器材的一環,以建立直接照護關係;問題在於毋須進行檢測的其他病患,其與DeepMind之間的關係為何?顯然是具有爭議性的。此外,NHS與DeepMind希望藉由資料分析達成醫院人力資源部署的最佳化,是否足以構成病患與DeepMind間的直接照護關係?是以,釐清AI與資料主體間的關係是必要的,否則勢將產生不當或違法處理個資的爭議。
四、資料控制者與處理者的平衡
另一個需要關注的問題是NHS跟DeepMind的關係。在英國的資料保護法下,區分資料控制者跟資料處理者。原則上,處理者必須依照控制者的指令處理資料,責任的歸屬基本上是歸於控制者。試想當資料不斷的(自動)更新時,AI是否仍為單純的資料處理者。從AI的發展脈絡而言,AI可能利用其他的資料進行輔助分析,而類此的專業分析知識,似乎是身為資料控制者的NHS所力有未逮之領域。因此,DeepMind是否更應該被視為與NHS成為共同控制者的角色,具有在個資保護規範上的可歸責性?
小結
若以DeepMind與NHS的合作案作為AI發展的指標案例,除去程序面的重大瑕疵,仍給予我們許多AI發展時,必須進一步思考的問題。
- AI的發展是在看似無序的資料中尋找相關性,進而作出符合邏輯的理性判斷,但現實法律中的規範是基於特定目的而進行個人資料的蒐集與處理,得以利用之個人資料的範圍並非漫無邊界,因而使我們落入限制AI發展或產生隱私疑慮的兩難。
- AI與個資主體間的關係為何?是直接關係或間接關係?更應進一步探討AI在個資保護中的定位,AI是否僅是單純的資料處理者?亦或當透過機器學習之後,AI不僅對特定資料進行處理,更可決定要蒐集何種資料以輔助其達成目的,則AI已不是單純服從資料控制者之資料處理者,而是進一步成為負擔更高義務的資料控制者。
貳、AI時代的個人資料蒐集與利用
AI的發展立基於大量個人資料的蒐集及利用,而進一步關注的問題則是何人的個資被蒐集與利用(Who)?在什麼時間點(When)?在什麼背景下(What)?是哪些個人資料(Which)?蒐集與利用的目的或理由為何(Why)?及如何進行蒐集與利用(How)?事實上,這些問題共同指向個資主體希望瞭解的答案,即個資蒐集或利用行為的合理界限為何?
一般而言,個資的蒐集與利用須確實履行個資主體被告知與同意的權利,例如歐盟自1995年的資料保護指令(Data Protection Directive, 95/46/EC)即規定個人資料的處理應本於個資主體的明確同意,僅有在特定的法規義務下才能以推斷的同意處理個人資料。美國健康保險可攜與責任法(The Health Insurance Portability & Accountability Act, HIPAA)對於受保護醫療資訊(Protected Health Information, PHI)必須經過個資主體的同意才能蒐集、傳輸及利用。這些法規政策彰顯「告知」與「同意」是蒐集處理當事人個資的最直接、有效的方式。
然而因為某種程度上個資主體難以理解AI使用資料的廣度,或即時得知個人資料的使用,此時應如何確保個人隱私之保護。近年來,歐盟或美國在隱私方面的政策趨勢,愈來愈著重個資主體的權利保護及個人資料蒐集與利用的界線,例如歐盟GDPR要求蒐集行為的合法與明確性,以及資料處理的合法性,並應與蒐集之目的相同;又如美國聯邦交易委員會(Federal Trade Commission, FTC)所制定的隱私保護框架(Privacy Protection Framework),亦要求應賦予個資主體選擇退出的機會,以及適時發送易於瞭解的隱私通知等。
AI的發展必須避免個人資料被不當的蒐集與利用,即使「不當」的認定本來就是不確定的法律概念;若AI所運用的資料的範圍超越一般民眾的想像及預期,即使在個資主體無法及時得知的情況下,AI處理個資仍應有合理界線,且此一合理界線必須符合個資主體的合理期待,否則勢將提高隱私侵害風險。畢竟我們絕不希望在成為報紙頭條醜聞的時候,才知道這些個資被使用的時間和原因。
叁、如何降低AI時代的隱私風險
資料控制者或使用者的告知,以及資料主體的同意,宛如個人資料處理權限的讓渡。對於轉讓一項與己切身相關的權利,人們有時會尋求親友或專業人士的意見,但對於個人資料的轉讓,卻鮮少諮詢他人的建議。事實上,許多人在是否同意分享個人資料的當下,總是面臨難以抉擇的困境。一方面是服務提供者為尋求擴大個人資料蒐集處理的範圍,可能策略性採用隱晦的通知或告知;二方面則是許多資訊服務在要求使用者同意授權其蒐集利用個資時,採取”接受或拉倒”(Take-it or Leave-it)的方式,使用者的決定時間極為倉促,而服務提供者卻是經由長時間的準備才提出相關的條款,進而導致資訊不對稱的市場失靈。如果無法透過法規政策予以導正,則可能發生服務提供者依法告知使用者將進行個人資料的蒐集利用,但使用者因無法判斷而屢屢拒絕,或因過度頻繁的通知導致其產生通知疲乏(Notice Fatigue),使用者在不瞭解內容的情況下而選擇「同意」。前者可能造成AI系統無法取得適當的資料進行分析,後者則可能導致使用者曝露在巨大的隱私風險下,而此兩者皆不是雙方所樂見的發展。
在相關探討AI與隱私風險的文獻中,本文認為除了法規政策外,以下兩種制度頗有值得參考之處。
一、第三方代理人制度
此一制度是在2014年美國白宮所公布的一份報告書,名為「向總統報告:大數據與隱私的技術觀點」,當中提出一項第三方機制來調和個資主體與服務提供者間的資訊不對稱。個資主體面臨最大的風險是來自於沒有充足的時間判斷是否應授與服務提供者蒐集利用自己個人資料的權利,因此如果可以透過第三方中介機構代替個資主體先行審閱相關授權規定,並認定此一授權規定是否符合該機構之隱私保護政策,個資主體僅須選擇加入特定的第三方機構。未來當消費者面臨是否應授予服務提供者其個資蒐集利用權時,只要檢視該授權是否有通過其加入之第三方面代理機構之認證,如有,則接受之,如否,則拒絕之。換句話說,藉由第三方的協助,個資主體可以確保所使用的服務,符合其對隱私的合理期待,並掌握其個人資料的去向。
二、AI演算法透明化
若AI僅被定位為解決特定的問題,如DeepMind的案例中只需要病患的血液檢驗報告,即可進行評估,則其演算法所須之資料便可確定。但若AI定位為解決開放性的問題,合理的個人資料蒐集利用範圍是最重要的問題。在相關研究報告指出,演算法的透明化,是有效監理資料蒐集與處理的方式,亦可避免演算偏見(Bias)的問題;因為當AI的演算法是黑箱時,其結果亦可能對個人造成不利的影響,惟現行的AI演算法多以營業秘密加以保護,亦造成監理的困難。
結論與建議
隨著AI的高度發展,倫理與責任的議題成為討論的核心,曾有學者提出,或許AI具備學習與思考演繹的能力,AI是否能夠理解道德倫理或個資保護的規範與意義?進而使AI成為個資保護的守門員,而非隱私侵害的麻煩製造者。隨著AI可透過各種感應器(Sensor)及物聯網(IoT)蒐集各種資訊,未來AI勢必將從被動的資料處理者,逐漸成為資料控制者,因此賦予AI個資保護的義務就應當提高,未來AI的創新必須以保障個人隱私為出發點,而不是以個人資料與隱私的犧牲作為其不斷進步的代價。
參考資料
- Anthony Liew, DIKIW: Data, Information, Knowledge, Intelligence, Wisdom and their Interrelationships, Business Management Dynamics, Vol.2, No.10, Apr 2013.
- Artificial intelligence, Robotics, Privacy and Data Protection, 38th International Privacy Conference, Oct., 2016.
- Department of Health (DH), Caldicott Principles, https://www.igt.hscic.gov.uk/Caldicott2Principles.aspx(May 21, 2018 last visited)
- ICO (UK), Big data, artificial intelligence, machine learning and data protection, Aug., 18, 2017.
- Information Sharing Agreement between Royal NHS and DeepMind, https://storage.googleapis.com/deepmind-data/assets/health/Royal%20Free%20-%20DSA%20-%20redacted.pdf(May 21, 2018 last visited)
- Lee Rainie & Janna Anderson, Code-Dependent: Pros and Cons of the Algorithms Age, Pew Research Center, Feb., 8, 2017.
- Nandy A., Biswas M. (2018) Google’s DeepMind and the Future of Reinforcement Learning. In: Reinforcement Learning. Apress, Berkeley, CA.
- Powles, J. & Hodson, H. Health Technol. (2017) 7: 351. https://doi.org/10.1007/s12553-017-0179-1(May 21, 2018 last visited)
- President’s Council of Advisors on Science and Technology, BIG DATA AND PRIVACY: A TECHNOLOGICAL PERSPECTIVE, May 2014.