为什么说用语言学鉴别络攻击者的国籍不靠谱？

分析攻击中所用语言知识只是归因的工具之一，而且并非总那么可靠。

恶意软件、数据盗窃、勒索软件。每个人都想知道最新疯狂攻击背后的神秘人到底是谁。近年来，安全界在使用语言学识别作恶者上进行了一些尝试，但谈到归因问题，该方法仍有许多不足与限制。

最近，情公司Flashpoint的分析师们声称WannaCry勒索软件与中国有关的时候，语言分析进入了人们的讨论的范畴。在此之前，很多安全研究都认为该勒索软件出自朝鲜，因为攻击重用了与Lazarus组织相关的基础设施组件。

另外，Taia Global 的告指出，影子经纪人的声明，其实是英语母语的人写的——尽管语法看起来支离破碎。语言分析还被用于指证盗取了DNC资料的 Guccifer 2.0，很可能不是所谓的罗马尼亚人。退回到2014年，Taia Global 还曾声称，语言线索将索尼数据泄露案犯指向俄罗斯黑客，而不是如美国政府宣称的是朝鲜人。

归因真是够难，依赖语言工具似乎仅仅增加了混乱。WannaCry到底是中国人还是朝鲜人干的Guccifer 2.0 是罗马尼亚人还是俄罗斯人的杰作言分析极少能引导人找出确凿证据。虽然语言分析能为研究人员带来一系列可供追踪的线索，但最多也就是支持或确认技术研究和取证方法发现的其他证据。语言分析，也只是归因武器库中的另一个工具而已。

伊利诺伊理工大学教授什洛莫·阿加门说：“语言学证据要想可信可靠，必须呈现出不同特性的一致模式，指向单一方向。Taia对索尼黑客和影子经纪人的原始分析背后的人，就是阿加门教授。

理解分析

分析类型有两种，一种查看源代码，另一种审查所用的文本。第一种形式里，分析关注的是代码风格和模式，要找出与其他已知代码样本的相同点。很多研究人员依靠这种方法来将不同攻击联系到一个黑客身上，但这不是语言分析。

勒索软件往往非常适合采用语言分析，因为该攻击仰仗受害者能读懂的勒索消息。大多数恶意软件，甚至鱼叉式络钓鱼活动，都经不起这样的仔细推敲，因为诱饵都是精心编造得看起来合法又貌似其他什么东西的。

分析从收集尽可能多的文本开始。限定某些数据集，可导致分析走向不可预期的路径，所以，确保包含所有可用的东西是关键。比如说，Taia的团队就审查了媒体道中和贴在Pastebin上的20条据称来自索尼事件黑客的消息。即便如此，该团队还在告中注明，该少于2000个单词的数据量，太少了。

语法、拼写、标点中的错误，时态混乱，乃至用词，都能给出一定线索。以英语为例，某些语法错误是英语(美式英语)母语者通常不会犯的，比如漏掉定冠词“the”和不定冠词“a/an”，或者句子中省了“to”、“should”、“must”或“will”之类的介词或情态动词。另一条线索是“-ing”词尾变形错误，比如该用“they are going”的时候用成了“they are go”。

依靠这些线索，分析师可列出5种可能语言，然后对比每个“奇点”以确定它们最接近哪种。比如说，漏掉“the”，就是俄语母语者或某些其他斯拉夫语的典型特征。Guccifer 2.0 在推特采访中一直漏冠词，就表明更可能是俄罗斯人而不是罗马尼亚人，因为罗马尼亚语是有定冠词和不定冠词的。

能认出的错误或语言特征越多，分析就越透彻。索尼告显露出了25种不同元素。

不是事先准备好的

然而，分析语言并不总是那么直接明了，因为人们会说多种语言，且流利程度不同。举个例子，汉语母语但师从俄罗斯人学习黑客技术，顺带学了俄语，但又用英语进行攻击，那从所用第三语言中泄露出的第二语言特征就会比母语还多。

上下文也很重要。线索可能会指向说俄语的人，但如果有理由认为攻击者是中国人，那就很有可能是曾受过俄罗斯人培训的中国黑客。语言学可以辅助从源代码证据和络取证等其他研究路径中三角定位出证据。

语言分析自身意义不大，不应该单用语言分析就归因下结论。

事实上，Flashpoint在宣称勒索通告是汉语者写的同时，也并未斩断WannaCry与Lazarus的联系。关于该朝鲜攻击小组，我们所知甚少。或许该黑客组织里就有汉语母语者呢。很多朝鲜人都会说汉语，很多朝鲜攻击者也都在中国受训和运作，尤其是中国东北地区。研究人员过去也曾提过，很多朝鲜攻击者实际上不从朝鲜发起攻击。

为什么语言分析有价值

语言是有特质的，分析所用词句，可让研究人员掌握更多关于攻击者身份、思维和动机方面的洞见。比如说，某说西班牙语的黑客用“grifo”指代“gas station(加油站)”。因为该词基本上只在秘鲁使用，研究人员就可以高置信度评估该黑客是秘鲁人，或者与秘鲁有极深的联系。黑客若用蔑称提及少数族裔，那他/他们的种族和性别身份，还有其政治意识形态，就会泄露一二。

误导也是有可能的。正如影子经纪人就似乎故意加入了语法错误，来掩盖其英语很溜的本质。攻击者是可以特意插入特定短语或错误，来伪造国籍误导司法部门和安全研究人员的。这也是为什么要有大量文本供分析的原因——想要保持一直出同样的错也是很难的。

纽约大学一份最近的研究，展示了语言风格分析如何被准确可靠地用于识别地下区人士的身份，基本他们使用各种各样的别称和账户。很多攻击者可能会忽视自己在字符串、评论和消息中所用的语言，甚至没意识到这些东西能被研究人员加以分析。

语言分析不是归因的铁证，但某些情况下可与技术证据结合使用，将恶意黑客与攻击联系起来。

相关资源：一款好用的审计软件——财务助手_财审助手-专业指导文档类资源…

声明：本站部分文章及图片源自用户投稿，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！

为什么说用语言学鉴别 络攻击者的国籍不靠谱？

相关推荐

为什么说用语言学鉴别络攻击者的国籍不靠谱？