8天评估65万封电子邮件,FBI怎么做到的?
11月9日消息,据福布斯杂志报道,有网友在问答网站Quora上提问:美国FBI只用了8天时间就完成了65万封电子邮件的评估,他们拥有什么软件可逐字逐句地扫描邮件吗?技术专家Nipun Sher给出了答案:美国共和党总统提名人唐纳德·特朗普(Donald Trump)曾猛批美国大选正被操纵,他昨天参加竞选集会时又给出“火上浇油”的评论。他对选民称:“你不可能在8天时间内就完成65万封电子邮件的评估,你无法做到!”
然而,美国总统奥巴马可能会说“yes we can”。我个人曾亲自参与这类行动,在不到2天时间内对130万封电子邮件完成了评估。我怎么知道?因为这就是我的职业。底线是,你不需要评估所有65万封邮件。事实上,谁也不想评估如此巨量的电子邮件,这不仅是愚蠢的行为,也是对时间和金钱的浪费。
相反,你需要做的就是清除那些与你正寻找的信息不相关的电子邮件。FBI有很多方法可以减少应被评估电子邮件的数量,这涉及到各种法医和调查工具。现在,我们还不知道FBI的具体工作流程,但我可以提供潜在方案,能够大幅削减评估电子邮件数量。
1.重复数据删除(De-duplication):首先,我们会使用Nuix或Clearwell等处理工具筛选65万封电子邮件。这些工具中,特别是Nuix(速度非常快),可以提取元数据和所有电子邮件中的文本信息。更重要的是,这些工具可通过重复数据删除的过程确定出复制邮件。这款软件可对65万封电子邮件的ID进行对比,删除重复电子邮件。我们还可以通过将新旧电子邮件转储进行对比,减少邮件数量。此前,FBI已经在希拉里“电邮门”调查中获得3万封转储的电子邮件。这个软件将可自动忽略普通和重复的电子邮件,从而大幅减少邮件数量。
2.电子邮件过滤器(Email Filters):经过重复数据删除后,我们可以在软件中进行搜索,以过滤掉那些元数据中拥有希拉里电子邮件地址的邮件。这可以删除全部希拉里未曾参与或与调查无关的电子邮件。由于这些电子邮件都在安东尼·韦纳(Anthony Weiner)的电脑上,为此我们可以假设,这种方法可滤掉数以千计的电子邮件。接着,尽管我不知道调查范围,但FBI肯定会通过限制特定范围或特定人群的方式,进一步减少需要评估的电子邮件数量。
3.电子邮件线程(Email Threads):经过电子邮件过滤后,我们可以通过只审查最具包容性对话线程的方式减少剩余邮件数量。让我举例解释下,如果我向你和我们的共同朋友发送电子邮件,你回复了邮件,接着我们的共同朋友也回复了邮件。我们无需分别评估这三封邮件,只需评估共同朋友的电子邮件即可,因为其已经包括了我的原始电邮和你的回复。微软去年开发出的Equivio就是非常受欢迎的工具,可以轻松确定最具包容性的电子邮件线程。
进过以上3次筛选后,FBI最后需要评估的电子邮件数量可能只剩数千封甚至数百封。如果他们知道自己在寻找什么,他们还可以使用关键词搜索,进一步减少需要评估的邮件数量。
这些只是此类案件中使用的最简单的方法,还有许多工具或应用可被用于相关调查,比如Brainspace、Relativity、EnCase以及grep等。
在你看来,FBI在不到2周时间里完成65万封电子邮件的评估,已经令人感觉不可思议。可是我认为,他们实际花费的许多时间都是不必要的。毕竟,效率低下是大多数政府机构的通病。
页:
[1]