探秘中本聪本尊,网上打的每个字,都在泄露你的身份!

2018-07-1816:27:17 发表评论 1,761
摘要

他是天才、资产过十亿、不愿面对镜头:这些是我们对比特币的创始人中本聪(Satoshi Nakamoto)略微知道的几件事——但我们依然不知道中本聪到底是男是女,又或者到底是不是人。

他是天才、资产过十亿、不愿面对镜头:这些是我们对比特币的创始人中本聪(Satoshi Nakamoto)略微知道的几件事——但我们依然不知道中本聪到底是男是女,又或者到底是不是人。中本聪在金融界制造了一场振荡,但是自2011年起他就不再露面了,许多人想要追查这个名字背后的真人,可是谁也没有确切的证据。最近又有人称,这个世界上最隐秘的富豪终于被揭开了面纱,这都是因为他的写作风格。

2014年,在司法语言学家杰克·格里夫(Jack Grieve)的带领下,英国阿斯顿大学的一组学生分析了中本聪在2008年发表的一篇关于比特币的学术论文。他们统计了诸如“仍然”(still)、“只有”(only)之类不起眼的小词出现的频率,并分析了文中的标点模式,比如在“和”(and)和“并”(but)之前的逗号使用,从而发现了揭开作者身份的线索。他们指出,这篇论文的笔触符合密码货币领域的博学大师尼克·绍博(Nick Szabo)的风格。

尼克·绍博刚刚开发了一种通过无线电传输比特币的办法尼克·绍博刚刚开发了一种通过无线电传输比特币的办法

就在今年早些时候,美国企业家兼政治评论员亚历山大·缪斯(Alexander Muse)也宣称美国国家安全局运用类似技术破解了中本聪的身份,不过却并未公布他们的分析是否也指向绍博。对中本聪的追查引出了几个有趣的问题,它们牵涉到每次我们写下文字时是如何泄漏身份的。从一个作者的文章风格,我们能对他了解多少?随着数字通讯的普及,我们的推特、电邮和短信中又暗含了多少可能出卖我们的线索?新兴软件已经能分析大量数据,从中找出模式。在它们面前,我们还能够隐身吗?

我们每次说话或者写作时,都会泄露大量关于自己身份、职业和家乡的信息。侦探利用文字破案已经有了千百年的历史,但是在近几十年中,计算机接过了一部分重任,负责在我们产出的大量数字信息中分析模式。这种计量文体学分析(stylometric analysis)是计算机科学本科课程里的常见内容,也是大学和出版社每天都在使用的剽窃监察软件的核心功能。另外,刑侦专家也利用罪犯在网上留下的文字确认他们的身份。

一些软件可以分析文本作者一些软件可以分析文本作者

这类分析最常见的用途,一是精确认定是谁写了某段文本,二就是总结一个未知作者的文笔特征:他的年龄、性别、教育程度、母语为何。分析的第一步一般是列出可能的作者和他们的文字样本,再由专家或软件从中提取出显著的特征。接着将待确认的文本与这些段落比对,任何匹配的作者都用概率表示,而不是一个绝对的“是”或“否”。最后,这些结果还要和案件涉及的其他证据一起考察,比如某某作者当时是否有不在场证明。“如果全部证据都指向同一个方向,你就能相当肯定地说出作者是谁了。”伊利诺伊理工学院的计算语言学家施洛莫·阿伽蒙(Shlomo Argamon)说道。

路边草地透露的消息

所谓“显著的语言学特征”在不同的案件中可能也不相同。这方面有一个著名的例子:某绑匪写了一封勒索信,要求人质的家属把赎金放在“devil strip”上。警方找到华盛顿特区乔治城大学的语言学家罗杰·舒伊(Roger Shuy)帮忙。舒伊刚好知道“devil strip”指的是人行道和车道之间的那片草地,这个说法极其罕见,罕见到只有俄亥俄州阿克伦市(Akron)的居民才会用。他问警方是否有嫌犯来自阿克伦,他们惊讶得连嘴都合不拢了。他们果然有这么个嫌犯,他后来也招供了。

著名的“devil strip”勒索信里包含了许多揭示作者身份的线索。勒索信大意:你还想见到自己的宝贝女儿吗?那就在一只尿布包里装一万美元现金,放到18街和卡尔森街转角处街边草地上的那只绿色垃圾箱里。不要带别人来。不许报警!!要一个人来!我会一直监视你的。如果你带上别人,那么交易结束,你女儿死!!!图片来源:Newscientist
著名的“devil strip”勒索信里包含了许多揭示作者身份的线索
著名的“devil strip”勒索信里包含了许多揭示作者身份的线索。勒索信大意:你还想见到自己的宝贝女儿吗?那就在一只尿布包里装一万美元现金,放到18街和卡尔森街转角处街边草地上的那只绿色垃圾箱里。不要带别人来。不许报警!!要一个人来!我会一直监视你的。如果你带上别人,那么交易结束,你女儿死!!!如果你不想被自己的文字出卖,光是避免方言或其他特殊词汇还是不够的。因为暴露你身份的线索往往是那些容易受到忽视的文本特征,而这些特征又是我们不会有意控制的,比如哪些单词大写,标点后空几格,段落前要不要缩进等等。“像‘devil strip’之类的词语是极少见的。”阿伽蒙说。“那次真是运气。”

比文本特征透露更多信息的,是所谓“功能词”(function words)出现的相对频次,它们的作用是将句子黏合在一起。阿伽蒙指出:“功能词就是介词、连词和人称代词。这些词语本身没有意思,只发挥语法功能。”这些词之所以对分析贡献良多(至少在英语里)是因为它们的数量十分庞大:加到一起,它们超过我们所写单词的一半。

德州大学奥斯丁分校的詹姆斯·彭尼贝克(James Pennebaker)在研究中指出,这些看似没有意义的语言成分能够指出某人的人格类型、健康状况、甚至会否自杀之类的将来行为。还有人利用泄露身份的奇特语言特征渗透互联网上的犯罪网络。同样来自阿斯顿大学的蒂姆·格兰特(Tim Grant)训练卧底警察在网上假扮已经被抓获的恋童癖,以此引出其他罪犯,有时他们也会假扮成潜在的受害者诱使犯人上钩。格兰特归纳了这些罪犯的写作风格,并训练警官修正自己的模仿技巧。“那些人都在互不信任的环境中交流,你一旦说错了话就会使他们很警惕。”他说,“如果你在词语挑选或者沟通行为上出了错,和他们的互动就会变得很不顺利。”

这些显著的模式,无论是字词选择、句子结构还是作者无意间使用功能词的频率,都指明了语言的高度灵活性。语言学家曾经认为,我们都是先学会一套标准的语法,再从这套标准上偏离出来表达个性的。不过现在更加普遍的观点却认为,我们从一开始就对母语有了一套自己的心智模型,我们习得母语的社会环境和情绪环境各不相同,使这套模型也和他人有了细微却重要的差别。亚利桑那大学的计算机科学家陈炘钧(Hsinchun Chen)指出,正是这个差别造成了富于个性的文笔,他还首次提出了“笔纹”(writeprint)的概念。所谓笔纹就是语言的指纹,它是我们写作风格中的细微差异,包括词汇、句长和段落铺陈等的不同。

用看似没有意义的语言成分(如所谓的“功能词”)来揭示作者身份,这种分析方法已经有些年头了。2013年,宾州杜肯大学的帕特里克·尤奥拉(Patrick Juola)用类似的方法指出J.K·罗琳是长篇小说《杜鹃的呼唤》的作者,使这项技术进入了大众视野。但如果作者已经死去,再要以此说服大众就比较困难了。比如《圣诞前夜》(Twas the Night Before Christmas)这首十九世纪诗歌,历来认为它的作者是克莱门·克拉克·摩尔(Clement Clark Moore)。但到了2016年,新西兰的文学学者麦克唐纳·杰克逊 (Macdonald Jackson)却发表了一份详尽分析,通过“that”和“the”之类的单词以及几对音素的使用认定诗的作者是亨利·利文斯顿(Henry Livingston)。

这个结论不是所有人都接受的。研究梅尔维尔作品的专家司各特·诺斯沃西(Scott Norsworthy)就嘲笑了杰克逊(和他的电脑)对于“无意义成分的分析”,说这些成分“无关紧要,在文本中的分布可能完全是随机的。”

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: