找回密码
 注册

QQ登录

只需一步,快速开始

搜索
爱股网 门户 财经博文 查看内容

从未失手的AI 预测:川普将赢得选举,入主白宫

2016-10-30 23:12| 发布者: 采编员| 查看: 575| 评论: 0|原作者: 但斌|来自: 新浪博客

摘要: 从未失手的AI 预测:川普将赢得选举,入主白宫 (附深度学习生成川普语录教程) 2016-10-30 新智元 1 新智元编译 作者:Rachel Dicker 等 来源: usnews.com/ deeplearningathome.com/ 编译:刘小芹、 Jason 新智元 ...

从未失手的AI 预测:川普将赢得选举,入主白宫 (附深度学习生成川普语录教程)


2016-10-30 新智元


1 新智元编译


作者:Rachel Dicker 等


来源: usnews.com/ deeplearningathome.com/


编译:刘小芹、 Jason


新智元启动新一轮大招聘:COO、执行总编、主编、高级编译、主笔、运营总监、客户经理、咨询总监、行政助理等 9 大岗位全面开放。


简历投递:jobs@aiera.com.cn


HR 微信:13552313024


新智元为COO和执行总编提供最高超百万的年薪激励;为骨干员工提供最完整的培训体系、高于业界平均水平的工资和奖金。


加盟新智元,与人工智能业界领袖携手改变世界。


【新智元导读】 从2004年开始连续三次准确预测美国总统大选结果的AI系统MogAI10月28日发布最新预测,看好川普赢得与希拉里的2016总统之争。不管最终结果如何,川普作为美国总统候选人都已经获得了“深入人心”的形象,国外甚至有人整理了他的一些有趣的言论,推出“川普语录”。本文后半部分秉承新智元的干货原则,手把手教你使用递归神经网络在TensorFlow上让生成川普讲话。


“唐纳德·川普会赢”,准确预测了前三场选举的AI系统如此说道。


“如果川普输了,将是过去12年里第一次违反数据趋势,”AI的开发人员说。


2016年10月27日在日内瓦(俄亥俄州)的竞选集会上,支持者们在聆听共和党总统候选人唐纳德·川普的演讲。川普花了一整天在俄亥俄州进行竞选造势。


一个高度可靠的统计模型预测唐纳德·川普将在总统竞选中胜出,人工智能系统已经成功预测了过去三次总统选举。


MogAI是印度医疗保健公司Genic.ai的创始人Sanjiv Rai开发的AI系统,它预测唐纳德·川普将成为美国总统,CNBC报道。


MogAI——名字来源于《奇幻森林》(“The Jungle Book”)的Mowgli,因为它就像那个狼孩,它从环境中学习——已经正确地预测了前三次总统选举的结果,以及民主党和共和党的初选结果。它使用来自Facebook,Twitter和Google等公共平台的信息生成投票行为的预测。


数据显示,人们对川普话题的参与度比2008年奥巴马顶峰时还要高25%。从表面上看,这种参与表示支持候选人。


Rai向CNBC解释说,“如果川普输了,将是过去12年中第一次违反数据趋势,12年前互联网开始全面介入竞选活动。”


但是,AI系统没有考虑它检测的用户活动的语气或意图。因此,如果有人在Twitter上发表对Trump的负面态度,AI也将其简单地标注为“参与”,认为是积极的量度。


Rai写道:“数据的粒度决定了偏见是越来越少的,尽管掺杂有消极或积极的权重。”


换句话说,更准确的数据能让MogAI分辨出候选人的支持者和反对者。例如,获取用户的IP地址能让AI系统更精确地跟踪用户的总体参与情况。


Rai 承认AI系统还有其他潜在的漏洞。例如,现在在社交媒体参与总统竞选讨论的用户比2008年时更多。尽管如此,正如川普所擅长的:任何宣传都可以是好的宣传。


“如果你看看初选就会发现,在初选阶段,社交媒体上出现了大量针对川普的负面言论,”Rai说,“然而,讨论越来越多,对川普是有利的。最后川普以不错的言论形象在初选中胜出了。”


CNBC称,川普现在的胜率已经比2008年时候的奥巴马高出25%。MogIA始建于2004年,已经准确地预测出美国最近三次民主党与共和党的总统大选之争。


干货:用RNN生成川普语录


来源:http://deeplearningathome.com/


本文将介绍如何向Tensorflow的语言建模教程中添加采样步骤/模式。让人非常惊奇的是,RNN可以从极少的数据中学习。我们使用川普的讲话作为样本。


递归神经网络(RNN),正如其名字所指,是具有递归连接的神经网络。也就是说,它与更简单的前馈网络不同,它不仅考虑当前的输入,还考虑前个状态。由于这种改进,RNN是许多类型的时序数据(文本、话语、音频、视频等)建模时的自然选择。有时,RNN模型(尤其是LSTM风格不同的)可以非常有效。RNN经常被用作更大型、更复杂的模型的构建块,这种形式下他们可以帮助语音识别、机器翻译、语言建模以及其他任务达到最优的结果。


本文中,我将从Tensorflow的语言建模教程开始,并做一点点修改,使它更有趣。


要使用下面的代码,强烈建议您至少使用一个更高端的NVIDIA GPU。在另一篇文章中我介绍了我的硬件配置(http://deeplearningathome.com/2016/09/Building-PC-For-Deep-Learning-Hardware.html)。你还需要安装Tensorflow。


PTB文本和字符模型


Tensorflow的语言建模教程使用非常小的Penn Tree Bank数据集中更小型的模型。不过,它是使用RNN做语言建模的非常好的介绍。更“大”的模型需要在一台GTX 1080上花费约3.5小时训练。


完整源代码可以在GitHub上获得(https://github.com/deeplearningathome/rnn_text_writer)。


语言建模


语言建模是一种在一系列所有可能的词序列中学习概览分布P(w_1, ..., w_n)的任务。其目标是理解这样一个事实:在概率分布P中真正的句子会比随机的单词组合拥有更大的概率。一旦这些概率分布原理被学会,我们就能把它当成一个生成模型,从中建立样本,以生成新的文本。从语言模型中抽取样本是最有趣的部分,但是,在TensorFlow的官方教程中并不包含这一部分,所以,我们在这里进行补充。


首先,我们对模型的图进行调整,把样本生成器包括进来:


接下来,我们增加抽样函数,由它来喂给数据并实际执行抽样:


注意到这一函数接收到了一个种子序列( seeding sequence),并将根据这一种子序列,抽取它的第一个样本。对于第一个之后的所有样本,它会同时考虑种子序列和此前生成的样本。你可以生成任意长度的样本序列。


PTB 数据集很小,并且执行的是现代的标准。在数据集中,它只有887521个单词,附带一个词汇表,内含10000个不同的词汇。我会使用这一数据库训练2个模型:1)一个使用单词作为输入的语言模型;2)只使用字母作为输入的语言模型。


基于单词的PTB语言模型


在这里,我遵照TensorFlow的官方教程,实现了78.853的测试复杂度,这与Zaremba等人提供的原论文《Recurrent Neural Network Regularization》是一致的。在训练模型之前,我在每一epoch上增加了抽样步骤。


我的种子词组是“the balance is supplied”,这是在原始的数据中找到的词组。在进行训练并随机的生成模型之前,我得到的一些东西包括:


influx stretching stein formula sell petco intellectual underwear conglomerate rowe microsoft than audio exactly cardiovascular azoff order boasts usx child-care 26-week petrie commodity misconduct recycling


正如早先期待的那样,这没什么意义,意味着我们在词序列的(目前随机的)概率分布并不是特别有用。让我们检查一下,离最终的训练还有多远。再一次的,我们使用种子词组“the balance is supplied”。在经历了54epoch后,我得到的结果是:


by slowing growth jack chips the government 's chief financial officer in detroit said the intention of investment to be produced by citicorp


55次epoch 后我得到:


as defendants allow many purchasers to participate in proportion to those who are no greater than a temporary recession to invest he admits the


注意,至少从语法上,这看起来已经很像英语了。例如,在“the balance is supplied”之后,单词 “as” or “by” 比“influx”在语法上更正确。还有,后面两句话的 “topic” 是 finance或investing,而第一句话至少随机的单词组合(本来也应该如此)。


基于字母的PTB语言模型


我把代码中的配置也写出来了:


为了便于比较,我使用了相同的种子词组:“the balance is supplied”。当我使用随机生成的模型抽样,获得的东西如下:

usb9xkrd9ruaias$dsaqj’4lmjwyd61\se.lcn6jey0pbco40ab’65<8um324 nqdhm

路过

雷人

握手

鲜花

鸡蛋

最新评论

QQ|联系我们|开放平台|免责声明|小黑屋|手机版|爱股网 ( 陕ICP备19013157号 )

GMT+8, 2025-12-11 11:50

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

返回顶部