美国总统大选民调又估错，传统民调失效也不等同大数据准确

发布时间:

来源: 半导体行业观察

美国总统大选已尘埃落定，一天之前所有报纸民调都说希拉里笃定当选，但结果却如大家所知。有趣的是，在大选前预言说中的却是人工智能，由印度开发的 MogIA AI 就成功预言特朗普当选。这证明了传统民调已经完全失效了，但大数据和人工智能是否又一定准确？

人人都想问：为何公投结果和民调预测完全不同？

其实早前的英国 6 月脱欧公投已经有这样的情况了。当时铺天盖地都是留欧的声势最强，传统机构民调、市场预测，就连博彩网站也是留欧的赔率较低，而在公布结果前由调查机构 YouGov 做的票站民调也是留欧占多。结果因为出乎预期，于是股市跌、汇价跌，人人都想问为何公投结果和民调预测完全不同。

当时很多人分析原因，有人认为脱欧派被标签为“年长、愚蠢、低学历”，没人愿意对民调承认自己的真实想法，也有人认为脱欧派大多不是网友，因此难以被发现，亦有人指脱欧派都是穷人居多，就算下注脱欧也改变不了赔率。

但不管原因为何，公投结果改变不了，英国政府动荡，卡麦隆下台，梅伊政府亦正研究如何启动脱欧程序。对梅伊政府而言，预测失准带来的损失非常大。正所谓“千金难买早知道”，成功预测未来结果就能及早准确，决定做或不做什么事。如果卡麦隆准确预先知道公投结果，又岂会愿意启动公投？

传统民调哪儿出错了？追不上时代！

爆冷成功脱欧，就有人预测会不会在美国大选也出现戏剧性结果，当时人人都是说“个别事件”，但结果是再一次爆冷，这一刻实在不能不问，传统民调哪儿出错了？事实上民调从来不儿戏，是社会统计学的专业范畴，透过公正客观的方式收集大量样本，再按比例投射到整个群体，是相对客观、精确地反映社会舆论的方式。

传统民调会用随机方式以电话访问民众，在访问前排除一些因素后再向被访者发问一组问题。不过今时今日愈来愈少人用室内电话，也愈来愈少人愿意花时间受访，回应率愈来愈低之余，加上愈来愈多人不乐意公开真实的想法（即使是匿名民调），自然更难像以前般控制样本的纯朴性。

2012 年奥巴马竞选连任时，民调就估计是对手罗姆尼胜出，但结果是奥巴马遥遥领先，近年全球大选都同样有民调失准的情况。先撇开别有用心想造假，又或缺乏资源“为做而做”的民调不论，现实是民调手法落后已追不上现在实际社会发展。因此不少人都提倡民调中心应发展其他新技术，以让民调能更符合现实发展，并提升准确性。

小众观点倾向沉默，但原来票数足以改变结果

最多人讨论的当然是社交媒体的大数据调查。在商业世界早已应用社交媒体大数据来协助掌握消费者的口味，例如香港的电视台就已经利用上述技术来了解新剧集、新节目的网上口碑，甚至隔日就能在黄金时间的娱乐新闻节目回应；而消费商品更会监视消费者对新商品的即时反应，甚至用于调整商品的市场对策。

不过，脱欧公投时何尝不是网上一片“留欧”之声？社交媒体大数据显然仍有一些难以跨越的界限。传播理论有所谓“沉默螺旋”：愈多人同意的内容，愈是比较放心公开说，反而抱持愈是小众观点的人就愈倾向沉默。由于社交媒体是公开的，自然愈有这种倾向，于是支持脱欧、支持特朗普的声音就隐藏了起来。

而且舆情能否跟选票真实挂勾是没有因果关系的，在网上大骂政府的人不见得是选友，更不见得会在大选日投票，如果直接把网上舆情和选情预测挂上等号，几乎一定出事。就以 2010 年香港的“五区补选”为例，当时网上就讨论得相当激烈，但实际其实只是一少部分人热闹而己，投票率仅为 17.1%，是回归以来最低。

人工智能大数据预测比民调更准？

另一个会被谈论的就是 Google Trend。比起众多杂乱的社交平台，几乎在中国以外的全球市场统一天下的 Google 是单一平台，拥有大量的搜索数据，做统计分析其实相对客观和误差较少。而前面提过的人工智能 MogIA AI 也同样是收集 Google、Facebook、Twitter 和 YouTube 的大量数据来做分析。

Google Trend 做的是呈现网友的搜索趋势，例如特朗普会和哪些字一齐被搜索、在什么时候开始多人搜索特朗普、哪些地区的网友搜索最多特朗普的信息，这些都能在 Google Trend 上得到答案。搜索趋势是很客观的，它能呈现一些社会议题被讨论的多寡，配合其他数据交叉分析能得到有价值的结果，而且也没有“沉默螺旋”的问题。

但问题是，谈论得多就是否等如能够胜出大选？中间有没有逻辑关系？其实这个谁也没有答案。2014 年世界杯比赛，当时中国百度就推出了类似的趋势网站，并利用中国网友的搜索趋势来预测赛果。但问题就来了，如果比赛实际影响因素是球员表现、天气和场地状态，那搜索趋势又代表什么？

AI 不懂“读心”，网友意志未必真实呈现

不过大选跟球赛的最大不同，当然是大选是呈现选民的集体意志，网友的搜索趋势当然会对投票抉择有影响，而正面信息和反面信息的搜索趋势绝对值得参考，但要说 Google Trend 或其他基于这些数据来分析的选情预测的准确性够高，目前仍需要时间去验证。

事实上，就连每天都写科技消息的笔者，也对人工智能预言特朗普当选的结果有所保留。毕竟这其实是一个“赌大小”的游戏，选出独立候选人的机会比围骰还要低，如果不是特朗普就是希拉里的话，猜中的机率也不过是一半一半，实际就跟向八爪鱼保罗请教世界杯赛果一样。

据 Business Insider 的报导，印度公司 Genic.ai 所开发的 MogIA，自 2004 年就开始就预测美国总统大选结果，而其结果就 3 次皆中，如果再计这次特朗普的话就更是四届全中。为了进一步排除人为的偏见和误差，MogIA 会利用机器学习来建立演算法，经过 12 年的学习就更加完善。

但即使如此，人工智能也未能解决一些核心问题，例如特朗普得票最多的就是乡村地区，而最热爱科技的却是城市人。而且就连 Genic.ai 也承认，MogIA 对人类的“反讽”语言依然未尽了解，未必能够辨别出否定的言论，而热烈的互动率也绝不代表受欢迎。