读书 | 大数据分析能预测出谁会成为恐怖分子吗?
2015/11/24 三联生活周刊

乔丹·艾伦伯格是威斯康星州立大学的数学教授,他在《魔鬼数学——大数据时代,数学思维的力量》一书中用数学方法解释了一系列既有趣又有现实意义的问题,试图扭转人们对数学抽象而枯燥的认识。
人们时常在不经意中掉进数字的陷阱。在红球和黑球中随机选择五次,一般人会认为出现“红红红红红”的概率要低于“红黑红红黑”的概率,让人们在0至9中选一个数字,他们最常选的是7。2009年伊朗总统选举中内贾德以较大优势胜出。哥伦比亚大学的两个研究生指出,这场选举中很可能有操控选票的行为。他们研究4名主要候选人在伊朗29个省得到的官方总选票数,一共得出116个数字。如果数据没有造假,那么这些数字的末位数应当是随机数,但计票结果显示,末位数是7的次数是正常几率的两倍,这说明票数很有可能是人为捏造的。

Facebook能预测出谁会成为恐怖分子吗?
《魔鬼数学》中提出了一个很有应用前景的问题:Facebook能预测出谁会成为恐怖分子吗?
Facebook通常掌握着用户的真实姓名和地址,了解他们的人际关系和行为方式。掌握了大量数据,预测用户中谁有可能参加恐怖活动这个问题并不困难。“从数学角度来看,这与判断Netflix用户是否有可能喜欢看电影《十三罗汉》的区别不大。Netflix通过向用户推荐自己没看过的影片,亚马逊向顾客推荐新书,已经是一项我们司空见惯的服务。塔吉特百货公司能够通过一个少女购买的无香味护肤液、矿物质营养品和棉球的数量增加,准确地推断出她怀孕了,并向她派送婴儿服装优惠券,而同一屋檐下的女孩父亲对此可能毫无察觉。”
这些预测的背后是数学模型,类似于一套评分系统,网站根据收集来的大量数据,对顾客尚未发生的下一次购买行为的几率进行打分。这就与Facebook预测恐怖分子的原理非常类似。他们可以为一系列已经被认定犯有恐怖主义罪行或者支持恐怖组织的人建立档案,然后进行数学统计:恐怖分子的状态更新规律与普通人相比是更多还是更少?他们使用哪些词语的频率更高?恐怖分子喜欢哪些乐队、组织或产品?Facebook将这些规律加以归纳,可以对每位用户打分,预测该用户与恐怖组织有联系的概率。预测结果可能是从2亿美国用户中筛选出一份10万人的名单,并指出:“名单上用户是恐怖分子或者恐怖主义支持者的概率,是普通用户的两倍。”
在技术上,制作这样一份名单并不困难,关键是我们如何解读这个名单的含义。假设10万人的名单中,有万分之一(即10人)确实是恐怖分子(其余99,990人是无辜的)。但Facebook会认为自己的预测已经足够精确,因为将一个无辜的人列到恐怖分子嫌疑人名单上的概率为仅为约0.05%(99,990 /199,890,00)。那么,如果你邻居的名字出现在这份名单上,就意味他很有可能是恐怖分子吗?
不,实际上你的邻居是无辜的概率高达99.99%(99,990/100,000)。一方面,遵纪守法的人几乎不可能被列入名单;另一方面Facebook算法筛选出的人大部分都是无辜的,但这个矛盾并不是算法错误导致的。此处作者艾伦伯格引入了数学定理贝叶斯推理中“先验概率”(prior probability)的概念,即面对这份名单时,要首先意识到:在2亿Facebook用户中,恐怖分子极为少见。大多数人都不是恐怖分子,因此该假设的先验概率非常小,即使找到相关证据,我们也不必十分担心 。

乔丹·艾伦伯格
艾伦伯格提醒说,大数据无法判断谁是恐怖分子、谁不是恐怖分子,它只能做到给某些人加上标记,认为他们更加危险和值得关注。数字帮助我们透过混沌和嘈杂的表象去理解世界中的隐形秩序,相信数学方法的力量,不代表数字是万能的。要对矛盾有一定的容忍度,并且在情感、道德、信仰问题上,数学应该保持沉默。
恐怖袭击与大屠杀,哪一种暴行更恶劣?
哈佛大学教授史蒂芬·平克在《人性中的善良天使》提出,“20世纪是人类历史上最血腥的世纪”这一论断值得怀疑。如果按比例换算,安史之乱是是人类历史上最严重的暴行,死亡人口占当时世界人口的1/6。17世纪欧洲的三十年战争期间失去生命的人只占世界人口的1%,但如果按比例换算成现代社会的人口,就意味着有7000万人丧命,超过20世纪两次世界大战死亡人数的总和。
但如果机械使用比例换算,得出的结论并不能完全令人信服。恐怖分子杀死1074个以色列人,占以色列总人口的0.015%,那么1074个以色列人的生命,是否相当于7700个西班牙人,22.3万个中国人,300个斯洛文尼亚人或1~2个图瓦卢人?“9·11”事件中死亡的人占美国人口的比例仅为0.001%,这个数字近似于零,显然不能与这场恐怖袭击给美国人心理留下的伤痕等价。在《魔鬼数学》中,艾伦伯格说,在比较暴行残忍程度时,我们既不能使用绝对数,也不能使用比例,因为它与比较数量大小的问题在本质上是完全不同的。一场恐怖袭击刚刚发生在自己所居住的城市——不是在发生历史上的某个年份,也不是远在地球另一端。那么只要展开想象,就能知道它给人的悲伤感受,“这个方法无论在数学还是在道德层面都是无可指摘的,也不需要进行复杂的计算。”
作者身为一名数学教授,写出的这本书比一般读者所期待的休闲读物要“更数学”一点,除了介绍数学思想之外,也不会避免列出算式。但他强调,得出算数上的正确答案,不等于掌握了事实真相。不能迷信论文的研究结果,艾伦伯格借用了科学博客xkcd上的一个讽刺漫画:当你看到“绿色豆胶糖与得痤疮的相关性”置信度达到95%(p值小于0.05)时,并不知道研究人员在试图证明“黄色、紫色、红色……豆胶糖与得痤疮的有关”的研究中已经失败了20次。
艾伦伯格说,学校数学课的上计算题就像是职业足球选手为了锻炼力量、速度、观察力和柔韧性,必须在健身房里进行枯燥的重复性训练一样,确实必要,但不是数学的实质。对于不想成为“职业数学选手”的一般人来说,比解答算式更重要的是用数学思维理解现实问题。
⊙ 本文版权归《三联生活周刊》所有,请勿转载,侵权必究。
三联生活周刊
一本杂志和他倡导的生活
长按二维码 即刻关注

http://www.duyihua.cn
返回 三联生活周刊 返回首页 返回百拇医药