猎云网8月21日报道 (编译:小豆豆)
如今,个人数据所面临的真正问题,就是贸易条款经常是不透明和不正当的。浏览信息、发送消息、网购,你的这些习惯与喜好都陷入了数字化的迷城里。
你的资料经历了什么,谁看过它们,还有在它们的基础上将有什么关于你的推论被作出,很大程度上取决于屏幕另一端的各种企业——谷歌、亚马逊、Facebook、广告商、广告交易、数据代理商等。“当今的网络就像一个大黑盒子。”哥伦比亚大学的一位计算机科学助理教授Roxana Geambasu说,“所以我们需要透明度。”
Geambasu、哥大的另一名助理教授Augustin Chaintreau以及一个研究生小组,在Mathias Lecuyer的带领下,想出了一个解决数据透明度难题的工具——XRay。他们将会于本周在圣地亚哥召开的Usenix安全专题研讨会上,做出相关报告,并解释他们的早期研究结果。他们还将发布获得开源许可的XRay软件。
XRay本质上是一个逆向操作的机器,模拟网络服务所制造出来的相关性。该团队最初试图确定以下三个方面:基于邮件文本内容而向Gmail用户显示的广告类型;亚马逊基于用户的愿望清单和其他数据而向用户展示的产品推荐;YouTube根据用户的观看历史而推荐的视频。
研究人员创立了几个账户,向其中输入了邮件信息、搜索和浏览的产品。然后他们注意到会出现广告、产品和视频的推荐。接着他们模拟这种输入与输出的相关性,从而就可以通过网络服务观察和预测到相关的结果与行为定向。
XRay的研究结果显示出可预见性,这虽然有趣却又让人感到不安。以Gmail邮件与广告的相关性为例。如果邮件里提及了怀孕,那么用户收到的广告就会包含“在找婴儿庆祝会的请柬?这里最高能打六折“,或者“拉夫·劳伦服装官方网店”等内容。很显然,这些广告很具有个性化,也因此会十分有用。
如果邮件使用了忧郁、沮丧、难过等词儿,显示出悲伤的主题,那么用户就会收到让人匪夷所思的广告,比如“拨打电话,接受萨满的疗愈”,还有“教你发短信——追到你爱的她”等。这些似乎可以理解,但也有些牵强。
如果邮件里使用了贷款、借款等字眼儿,表明了一个人可能有着经济上的需求,那么用户会收到诸如“汽车贷款,无需担保人”、“有不良信用记录也能汽车贷款!”的广告。但这些广告的真实性就很让人怀疑了。纽约时报的最近一篇文章审查了汽车贷款的借款人,包括他们的次贷信用记录以及营销策略。
这不仅产生了计算机生成的推论是如何被决定的问题,也让人思考,数据是怎么被利用和分享的。Geambasu指出,与忧郁相关的“萨满的疗愈”广告,是被广泛使用的相关物吗?比如说,如果你在其他文本中点击萨满疗愈的广告,你会不会被认为是患了抑郁症?
Geambasu说:“被泄露的受众信息,可能会被用于各种目的。它可以被用于歧视。而这是一种很隐蔽的歧视。”
几个月前白宫一份关于大数据的报告正好提出了对此问题的关注。报告呼吁要限制公司使用网上收集来的个人资料。
Chaintreau指出,从效率和个性化的角度来说,网络数据收集,定向广告和服务具有很明显的利益。“但是我们想把这种个性化变得透明。”他说。
Chaintreau补充说,越来越多的人理解了大数据的危险,纷纷致力于发展追踪网络个人数据流的工具。而他们的哥大团队,也是这群人中的一部分。
例如,普林斯顿一位计算机科学家Arvind Narayanan正在领起一个旨在地图数据采集、推理和整个网络共享的秘密项目。与麻省理工媒体实验室密切联系的非盈利组织ID3,正在开发开源软件,让个人能更好地控制自己的资料,包括生成个人数据如何被使用的审计跟踪。
虽然XRay还只是一个雏形,但专家表示早期的结果看上去让人印象深刻。斯坦福的计算机科学家Dan Boneh在评价XRay时表示:“它的出现很有意义。”
随着更深入的开发,XRay团队希望在一年或更短的时间内制出一个更强大、更通用的工具。团队成员说,最有可能的用户是在私人组织里、州检察长办公室、联邦贸易委员会里精通技术的员工,还有编辑。XRay研究人员已经收到了布朗媒体创新研究所的拨款,与哥伦比亚新闻学院和斯坦福大学工程学院的合作,定制他们面向编辑开发的数据监测技术版本。
电子前沿基金会的高级律师Lee Tien表示,XRay似乎前景不错,也是扭转消费者与数据收集公司之间的贸易条款的方法。他还说,“看见他们所看见的,是取得平衡的第一步。”
哥大研究人员在报告中以平衡的主题作结:“我们的工作呼吁并保证在自愿透明条件下实现最佳的实践,同时让调查人员和监管机构提供一个重要的新工具来提高警惕。”
XRay工程已经获得了来自国防高级研究计划局、国家科学基金会、谷歌及微软的基金支持。
Source:NYT