Author 作者 甘侦蓉/清华大学人文社会AI应用与发展研究中心博士後研究学者。机器学习人工智慧资讯个人资讯管控权个人隐私AI演算法随着机器学习(machine learning)技术的使用与开发,人工智慧(artificial intelligence, AI)逐渐蓬勃发展,相关技术及使用的风险也日益受到关注。其中个人资讯是否能自主管控及隐私侵害的风险格外受到重视,这将涉及政府、AI开发或使用单位是否有良好的资料治理(data governance)政策。AI要有庞大资料才可能学会人类交办的事目前许多AI系统是使用「机器学习」技术来设计,这项技术的主要特点是电脑必须先从大量资料中分析各种特徵之间关联的规律性(模型),然後 以该规律性(模型)自动预测新的资料。例如要让AI辨识猫咪的图片,工程师会在电脑中先输入一堆有动物的图片,并写一组程式告诉电脑它的目 标是辨识图片中的猫咪,然後由电脑自行摸索、辨识出猫咪的特徵因子,这麽一来电脑就能根据那些特徵因子自动判断图片上的动物是否为猫咪; 又或者要让AI推荐用户影片,工程师必须先将许多用户过去观看影片的纪录输入电脑,并写一组程式告诉电脑它的目标是分析与归类用户偏好观赏 的影片类型,由电脑自行摸索出可归类所有用户观赏影片类型的模式,这麽一来电脑就能根据该模式来归类目前用户可能偏好的影片类型,然後自 动予以推荐。简单来说,使用机器学习所设计的AI系统,就是一个做过许多考古题并且对过答案的学生,根据他在考古题里学到的东西来回答新的测验内容。
这麽一来,要开发能预测、决策或最佳化工作流程的AI机器学习系统,首要的目标就是得有足够多资料让电脑学习,而开发出来的系统也是透过 资料读取与分析来达成任务或生产更多资料。这意味着AI系统从开发到应用的每个阶段都牵涉资料治理。
所谓的资料治理,就是为确保资料的使用及生产都有良好品质,且符合如尊重个人资讯自主管控及保护个人隐私等法律规范,并维护资讯系统安全,因此需要采取适当的方式及技术来管理相关资料。
AI所使用或生产的资料其实不一定都能直接或间接辨识个人。依据台湾的《个人资料保护法》规定,能直接或间接辨识个人的资料,包含姓名、出生年月日、国民身分证统一编号、护照号码、特徵、指纹、婚姻、家庭、教育、职业、病历、医疗、基因、性生活、健康检查、 犯罪前科、联络方式、财务情况、社会活动等。但即使不能辨识个人,收集到的资料仍会遇到有无着作权且获得授权、是否泄漏国家安全或核心科技所保护的机密资讯、有无中毒或被骇客攻击等值得关注的法律与资安问题。这些能辨识个人的资料,若资料当事人未能自主管控或隐私外泄,不但可能造成当事人身心、名誉、财产等伤害,AI系统开发或使用单位也有违法之虞,社会大众可能会逐渐不信任甚至抵制AI的发展及应用,因此资料治理在AI来临的时代格外重要!有关个人的资讯常见蒐集管道AI系统如果是设计来预测使用者动态或向个人推荐搜寻,有关使用者的资讯可从哪里蒐集?目前最常见的蒐集管道就是网路,像是搜寻引擎如Google入口搜寻平台,或是各种资讯及影音网站如新闻网站、购物网站、YouTube、Netflix等,以及社群网站如Facebook、 Instagram、YouTube、Pinterest、抖音等。手机上的各种应用程式(app)如Line、WhatsApp、WeChat等,或是智慧型手表等各种智慧穿戴装置,也是有关个人的资讯蒐集来源。
此外,像是各大楼、办公室、街头巷弄无所不在的摄影机也可能用以蒐集个人影像的来源。而日常生活中的各种资料,如个人在校成绩与档案、就医检查影像或用药资讯、国税局的个人所得或社会局的社福金发放等,也都有可能成为有关个人资讯的蒐集来源。
当然AI系统并不是都使用与个人相关的资料,但如果系统任务是要预测个人行为甚至模拟个人,那麽就必须使用可直接识别资料当事人的数据,或使用透过串连或交叉比对能够间接识别当事人数据。暂且不论那些恶意泄露个人隐私或蓄意监控的资讯软体,依据法规,凡是要取得有关个人的资料都需经过资料当事人同意,所以当我们下载软体或使用新的资讯平台时,平台或软体都会提供「使用者服务条款」(terms of use / service)徵求资料当事人的同意才能够合法蒐集。使用者服务条款
为何无法保障个人资讯管控权?即使都要提供「使用者服务条款」经使用者同意,AI 系统或者各种软体仍有可能侵害资料当事人对於个人资讯的自主管控权利。
1. 额外蒐集未经个人同意的资讯首先数位软体或平台有可能违反「使用者服务条款」,蒐集未经个人同意的隐私资讯。例如手机上的健康纪录app除了蒐集使用者同意的资料如行走步数外,还在使用者不知情的情况下,额外蒐集使用者的电话通讯录、所在地理位置、对话内容等,就属於此类侵权的状况。
2. 徒具形式的个人同意其次,就算数位软体与平台所蒐集的个人资讯都有经过使用者的同意,但同意方式也可能徒具形式。例如,人们若不同意全部的使用与服务条款,结果就是不能下载软体或使用该服务,等於半强迫使用者同意所有的资料蒐集;又或者将使用与服务条款写得密密麻麻、非常复杂,且用词模糊不清。不少常见的「使用者服务条款」细节并不明确,如许多软体会提及将与第三方应用程式和服务共享使用者资讯,但所谓第三方的对象并不明确,对於所分享的使用者资讯范围也都交待不清。以至於使用者仅仅只是开始使用服务就必须同意将自己所有的资讯都分享给毫无限制的个人、企业或团体,用於毫无任何内容限制的资讯或广告行销。此类「使用者服务条款」仅是徒具形式,无法保障使用者隐私。
3. 使用目的与原始的资料蒐集目的不符最後还有一种常见的情况,就是经当事人原始同意蒐集的资料未经知情同意被挪做其他用途使用。例如在社群软体上玩心理测验,结果个人资讯被拿去投放选举广告。最严重的案例便是2018年的剑桥分析事件 (Cambridge Analytica)。又或者平台片面更改隐私条款,扩大蒐集资料范围或扩大与第三方分享资料范围,却未通知当事人、或是以相当不明显、容易被忽略、甚至完全无法拒绝的方式进行通知。例如通讯软体 WhatsApp在去(2021)年初更新隐私条款,擅自将使用者的数据与Facebook分享,还直接取消隐私条款上的选项,让使用者无法拒绝分享给Facebook,便引起许多使用者的不满。AI演算法可能如何侵害个人隐私?现今的AI演算法有许多功能,以下三个演算法的应用与个人资料息息相关,也较可能侵害个人隐私。
1. 个人资讯侧写
演算法可用来蒐集个人资讯、进行分析、对於个人做资讯侧写(profiling),因而可能会侵害个人隐私。所谓的资讯侧写是一组以代码标示特定个人的数位档案,里面的资料可能包含个人资讯如姓名、生日、地址、联络电话等,还有数位足迹像是历年的网页搜寻、填写表单的资料、休闲嗜好、购物习惯等。
这种包含个人资讯侧写的资料库,有可能是软体或平台自行建置。例如社群软体会纪录个人不论是否公开分享的贴文、照片、与哪些人互动像是按赞或留言等,分析他可能会喜欢看到哪类型的贴文与新闻资讯,後续就可以客制化提供给使用者的介面,包含收到朋友推文的优先顺序、推播的新闻与影音类型,还可以应用於协助广告客户精准投放广告,甚至针对性格不同的平台使用者客制化广告内容等。
2. 含个人资料的资料库贩售
前面介绍的资料库还可以进一步串连延伸运用,像是国内外各种数据仲介公司会透过从不同管道取得或购买的数据,依照喜好、地区、人种、年龄等各式主题建立个人数位资讯侧写的资料库。这些整合後的资料库可以贩卖给有需求的客户,或针对客户需求进行分析及预测,也可以媒合不同客户手上所拥有的数据,然後再从中抽取仲介费等。例如,旅游公司将客户的资料交给数据仲介公司,数据公司再根据顾客的喜好如喜欢的国家、日常休闲娱乐、偏好的交通工具或度假方式等分门别类,日後旅游公司就可向客户直接推播符合他偏好的旅游广告。又或者数据仲介公司还可以媒合旅游公司与防晒乳产品公司,让运动用品公司可以投放广告给旅游公司中喜欢到户外活动的客户,这麽一来旅游公司与数据仲介公司就能同时都赚取广告费。
3. 重新识别化个人资讯
虽然多数演算法所蒐集及使用的资料,都采取匿名化处理或已经去识别个人资讯,仍有可能透过与某些具有个人姓名资料的档案页面例如LinkedIn或Twitter 进行比对,而让特定个人解除匿名,重新识别(reidentification)个人身分。
换言之,数位资料本身就是可以无限复制,也可同时储存在许多地方。当人们在许多地方留下各种有关个人资讯的数位面包屑时,这些数位面包屑即使无法直接或间接识别个人,仍有可能透过资料之间的合并、 串连、比对等方式,而让个人身分被揭露。拜现代AI 演算法的预测功能之赐,许多数位平台或软体还能利用AI来预测个人行为模式,以利推荐产品或投放广告,提高个人隐私受到侵害的风险。AI时代来临,该如何治理有关个人的资料?统上针对个人资讯蒐集与分享范围的一次性知情同意机制,在网路时代对於降低个人隐私泄漏的风险,以及维护个人自主管控有关自身资讯传播的管道,显 然规范效果有限。
目前在医学研究与医疗资料应用上颇为流行的「动态同意」机制,对於确保个人自主控制自身资讯流传的范 围,效果也有些限制。动态同意是指不只在利用个人资料前需取得当事人同意,後续也藉由向当事人回馈资料的利用情形、且当事人得拒绝资料再利用等机制以确保个人知情同意的有效性。但是,这种动态同意机制只能针对那些事前有明确取得个人同意蒐集及储存项目、後续也有明确利用目标及结果的资料库,像是医疗院所储存的医疗影像应用资料库等,若要广泛使用在各种网路蒐集个人相关资讯的行为规范上,有它的困难。
目前有关保护个人数位资料和隐私的治理规范,首推的是欧盟在2018年5月上路的《一般资料保护规则》 (General Data Protection Regulation, GDPR),该法规的宗旨在於强化个人有关自身数据的自主控制权。例如,规定任何公司、平台或软体都不能在未经个人同意下,无明确目标地蒐集与储存个人可能产生的任何数位资料。无论是可直接辨识个人的资料,如电话号码、电子信箱、地址等;生物特徵资料,如个人指纹、脸部辨识特徵、相片、视网膜扫描档案等;或是数位活动纪录,如网页浏览历程纪录Cookie、电脑IP位置、行动装置ID、社群平台活动纪录等,都属 GDPR规范的范围。不仅如此,法规中也授与个人可以要求资料控制者删除有关个人数位资料的权利,且不论个人先前是否已同意被蒐集与储存;甚至个人也可要求蒐集资料者提供有关个人资料的利用目的、处理方式、利用结果的复本作参考。
然而GDPR保护的对象毕竟仅有欧洲地区人民,且GDPR对於个人资料共享的限制规定,只针对个人与 蒐集企业之外的第三方,并不针对企业内部。这麽一来,有可能导致产品市占率高、产品较多的跨国公司如Google、Meta、Amazon等数位科技巨头,不但有足够的人力与财力来因应为符合GDPR各项严格规定所衍生的成本,且能将他们的不同产品所蒐集的数据合并在一起成为综合资料的大型数据库,导致该公司数位产品的市场地位更加巩固,意外地排挤了其他拥有类似数位产品的中小企业竞争力。
再者,尽管GDPR上路後陆续带动美国某些州、澳洲、 韩国、日本、巴西、中国、南非等国家制定针对国人的数位资料保护与隐私相关法规。但这麽一来,其他数位化发展较慢、或者在个人数位资料保护机制上较弱的国家,人民的资料有可能就成为了各种使用AI技术的企业或数据仲介商的掠夺目标,而有数位资料殖民的隐忧。不仅如此,因此而研发出来的AI产品,在购买力等经济市场的考量下,还是很有可能会回头应用在数位科技先进国的人民身上。
上述情况提醒了我们,在AI科技时代下要适当保护资料当事人对於个人资讯的自主管控及隐私权,很难只扫自家门前雪,仅仰赖各国自行订定个人资料保障法规是不够的。事实上,政府有时候就是个人隐私的主要侵害者!在数位科技有跨国影响力的情况下,很需要各国通力合作联合制定相关保护规范。如此,也才有可能因应AI时代,个人隐私权益所面临的重大威胁与风险。
本文感谢工业技术研究院产业科技国际策略发展所支持