【猎云网(微信号:ilieyun)】5月6日报道 (编译:原子核)
在过去的一年里,在印度的海得拉巴市(Hyderabad),一个由260名合同工组成的团队,努力整理了从2014年以来发布的数百万张Facebook照片、状态更新和其他内容。
工作人员们根据Facebook所给的五个“维度”对物品进行分类。
这些包括帖子的主题——比如说,这些内容是关于食物,人们的自拍还是动物?发布的场合什么是,日常活动还是重大事件?作者的意图是什么,策划一个活动,帮助人们激发灵感,还是只是开个玩笑?
Facebook表示,这项研究旨在了解用户Facebook上发布的内容类型是如何变化的。这可以帮助公司开发新功能,并潜在地增加广告使用率,从而增加广告收入。
这项工作的细节由一个外包公司——Wipro有限公司的多名员工在过去几个月内提供。由于害怕印度公司的报复,工作人员们都是匿名发布这项内容。Facebook后来证实了该项目的许多细节。Wipro拒绝置评,并将所有问题抛给Facebook。
该公司高管称,Wipro在全球雇用了数千人,其工作是帮助Facebook在任何时候都拥有大约200个内容标签项目。许多项目的目标是“训练”软件,该软件可以确定用户的消息中出现的内容,并为许多背后的人工智能的其他功能提供帮助。
这个标记工作此前从来没有被报道过。
“这是人们所需要的核心部分,”Facebook人工智能产品管理总监Nipun Mathur说。“我并不认为这个功能需要被取缔。”
据路透社咨询的法律专家称,内容标签计划可能会给Facebook带来新的隐私问题。Facebook正面临全球范围的监管调查,调查涉及内容包括与业务合作伙伴共享用户数据的一系列涉嫌侵犯隐私的行为。
Wipro的工作人员说,当他们看到一张度假照片或一个纪念已故家庭成员的帖子时,他们获得了一扇了解生活的窗户。Facebook承认一些帖子,包括截图和评论,可能包括用户名。
Facebook表示,其法律和隐私团队必须签署所有标记工作,并补充说,Facebook最近引入了一个审计系统,“以确保隐私得到预期地保护,所有按预期工作。”
但是,一位匿名的前Facebook隐私经理对用户的帖子未经许可而被审查的行为表示不安。已有一年历史地欧盟通用数据保护条例(GDPR)对公司如何收集和使用个人数据有严格的规定。在许多情况下,需要得到当事人具体的同意。
Wiggin和Dana律师事务所的合伙人John Kennedy曾致力于外包、隐私和人工智能领域,他说:“全球发展政策的一个关键因素是目的限制。”
Kennedy说,如果目的是寻找提高服务精度的职位,那么应该明确说明这一点。他说,使用外部供应商从事这项工作也需要征得同意。
目前尚不清楚GDPR将如何解释,以及监管机构和消费者是否认为Facebook的内部标签做法存在问题。欧洲最高数据隐私官员拒绝就可能出现的问题发表评论。
Facebook的一位发言人说:“我们在数据政策中明确表示,我们使用人们提供给Facebook的信息来改善他们的体验,我们可能会与服务提供商合作来帮助这一过程实现。”
美国参议员Mark Warner,是一个民主党人,也是社会媒体的主要批评家。他在一份声明中对路透社说,大型平台越来越多地“从用户那里获取越来越多的数据,用于更广泛、更深远的用途,而不对用户进行任何相应的补偿。”
Warner说,他正在起草一项法律,要求Facebook“确定用户数据的价值,并准确地告诉用户他们的数据是如何被货币化的”。
人为驱动的内容标签,也被称为“数据注释”,是一个一直在发展的行业,因为公司一直在利用数据进行人工智能训练或者其他目的。
自动驾驶汽车公司,如Alphabet公司的Waymo,在视频中有标签识别交通灯和行人,以加强他们的人工智能能力。包括亚马逊在内的语音助理开发人员,让人们对客户音频进行注释,以提高人工智能的语音破译能力。
Facebook去年4月启动了Wipro项目。据工人们说,这家印度公司获得了400万美元的合同,并组建了一支大约260名贴标工的队伍。去年,这项工作包括分析前五年的帖子。
在完成这项工作后,该团队在12月份被削减到30个人左右,并从上个月开始每个月对帖子贴标签。他们说,这项工作预计将至少持续到2019年底。
Facebook确认了人员变动的事宜,但拒绝就财务细节置评。
该公司表示,对帖子地分析正在进行中,因此无法提供标签或产品决策的任何结果。它没有告诉贴标签的工作人员这个项目的目的或结果。工作人员们说,他们从他们有限的观点中推断出,自私自利的行为会越来越受普遍。
Wipro和Facebook表示,这些帖子是对基于文本的状态更新、共享链接、事件帖子、故事功能上传、视频和照片的随机抽样,包括用户在Facebook各种信息应用程序上发布的聊天截图。这些帖子来自全球的Facebook和Instagram用户,使用的语言包括英语、印地语和阿拉伯语。
Facebook说,每一个项目都会交给两个贴标工检查其准确性,如果他们不同意,则会交给第三个人。工作人员们说他们每天平均能看到700条帖子。Facebook表示,目标平均值还是较低。
Facebook证实,提米苏拉、罗马尼亚和马尼拉、菲律宾都参与了这一项目。
在Facebook的其他标签项目中,海德拉巴外包供应商Cognizant信息技术有限公司的一名员工表示,他和至少500名同事在Facebook视频中寻找敏感话题或亵渎语言。
Facebook说,其目的是训练一种自动化的Facebook工具,帮助广告商避免其赞助视频有成人或政治方面的内容。Cognizant没有回复置评请求。
Facebook的Mathur说,另一个标签应用涉及社交网络的“市场购物”功能。它首先让贴标者和产品专家对一些现有的列表进行分类,从而自动为新的列表提供分类建议。
Facebook用户没有机会去选择让他们的数据不被贴标签。
在Wipro,被审查的帖子不仅包括公开的帖子,还包括那些私人分享给有限用户朋友的帖子。Facebook产品支持运营总监Karen Courington说,这确保了样本反映Facebook和Instagram上的活动范围的真实性。
Facebook的数据政策没有明确提及手动分析。
“我们向支持我们业务的供应商和服务提供商提供信息和内容,例如通过提供技术基础设施服务、分析如何使用我们的产品、提供客户服务、促进付款或进行调查。”
欧洲的GDPR还要求公司根据规定删除用户数据。Facebook表示,它拥有一项技术,可以定期将贴有标签的帖子与删除请求和内容隐私设置同步更改。
Facebook和其他公司正在测试减少外包标签的技术,部分原因是为了更快、更低成本地分析更多数据。例如,Facebook的Mathur说,新闻订阅排名和盲人照片描述的人工智能训练数据都来自Instagram帖子上的标签。
他说:“我们尽量减少发送的邮件数量。”