阅读时间大约6分钟（2332字）

2018-08-13 匿名代码根本无法破解？不存在的！机器学习玩转去匿名化

事实证明，软件开发人员也会有指纹留下。

【猎云网（微信号：ilieyun）】8月13日报道（编译：柠萌）

编者注：匿名的代码是否真的无法破解？代码的开发人员是否能完美隐藏？新的研究表明可以利用机器学习技术对代码样本的作者进行去匿名化操作。这种操作对剽窃和隐私问题也会产生影响。本文将带你了解去匿名化研究目前的结果和未来的方向。

文体学（语言文体的统计分析）研究者—早就知道写作是一个独特的、个人主义的过程。您选择的词汇、句法和语法都会留下痕迹。例如，只要自动化工具有足够的培训数据可供使用，它们现在就可以准确地识别论坛帖子的作者。但最新的研究表明，文体学也可以应用于人工语言样本，比如代码。事实证明，软件开发人员也会有指纹留下。

雷切尔·格林斯塔特（Rachel Greenstadt）是美国德雷塞尔大学计算机科学的副教授。艾林·卡利斯坎（Aylin Caliskan）是格林斯塔特的前博士生、现任乔治·华盛顿大学助理教授。他们两人发现，代码和其他形式的文体表达一样，都是无法匿名的。在周五的DefCon黑客大会上，这两位科学家将展示他们的多项研究。在研究中，他们利用机器学习技术对代码样本的作者进行去匿名化操作。例如，他们的工作可能在剽窃纠纷中发挥作用，但同时它也有隐私问题，尤其是对成千上万向世界贡献开源代码的开发者而言。

如何对代码进行去匿名化？

下面用一个例子对研究人员如何使用机器学习来发现代码的作者进行简单解释。首先，他们设计的算法识别了在一些代码样本中找到的所有特征，有很多不同的特征。想想自然语言中存在的每一个方面：有你选择的单词，你把它们组合在一起的方式，句子长度，等等。格林斯塔特和卡利斯坎随后缩小了功能范围，使其只包含了真正区别于其他开发者的功能，将列表从数十万缩减到大约50个。

研究人员不依赖底层特性，比如代码的格式化方式。相反，它们创建“抽象语法树”来反映代码的底层结构，而非它的任意组件。他们的技巧类似于优先排序某人的句子结构，而不是在于他们是否缩进一个段落的每一行。

这个方法还需要一些别的工作来教一个算法，让它知道什么时候应该发现另一个代码示例。如果一个随机的GitHub账户弹出并发布了一个代码片段，格林斯塔特和卡利斯坎就不一定能够识别背后的人，因为他们只有一个样本可以使用。他们可能会说，这是一个他们从未见过的代码开发人员。然而，格林斯塔特和卡利斯坎并不需要把一生的时间都花在代码上，他们只需要几个短的样本。

例如，在2017年的一篇论文中，卡利斯坎、格林斯塔特和另外两名研究人员证明，即使是存储库站点GitHub上的一小段代码，也足以区分出各个编码者之间的区别，而且精确度相当之高。

最令人印象深刻的是，卡利斯坎和其他研究团队在另一篇论文中表示，只用他们编译的二进制代码就可以去匿名化程序员。在开发人员编写完一段代码后，一个名为编译器的程序将它转换成一系列的1和0，机器可以读取这些1和0，称为二进制。对人类来说，这简直就是胡说八道。

卡利斯坎和与她一起工作的其他研究人员可以将二进制分解回C++编程语言，同时保留开发人员独特风格的元素。假设您写了一篇论文，使用谷歌翻译将其转换为另一种语言。虽然文本看起来可能完全不同，但是您编写的方式元素仍然嵌入到了语法之类的特性中。代码也是如此。

“风格被保留了下来，” 卡利斯坎说。“当文本是以个人学习为基础时，就会有很强的风格特征。”

为了进行二进制实验，卡利斯坎和其他研究人员使用了谷歌 Code Jam年度编程挑战赛的代码样本。机器学习算法正确地识别出了100名个体程序员，而只用了96%的时间。每个人使用8个代码样本。即使将样本量扩大到600名程序员，该算法仍能在83%的时间内准确识别。