MIT TR:深度学习让学习更智能

2014-02-27 佚名 生物探索

2012 年 7 月,当雷·库兹威尔去见谷歌首席执行官拉里·佩奇的时候,他没想找工作。库兹韦尔是一位机器智能未来主义者,也是该领域受人尊敬的发明家;他本来是想来谈 谈自己即将出版的新书《如何创造人脑》的——佩奇曾经读过这本书的草稿。库兹韦尔对佩奇说,他想开个公司来实现他的设想,建造一台真正有智能的计算机:这 种计算机能理解语言,并能自行进行推断和作出决策。显而易见,这种事将需要完全



但是早期的神经网络只能模拟为数不多的神经元,所以它不能识别出太复杂的模式。这种方法在20世纪70年代陷入了沉寂。

在 20世纪80年代中期,在辛顿和其他人的帮助下,通过一种叫做“深度”的模型,重新激发了人们神经网络的兴趣。“深度”模型能更好地利用软件的多层神经 元,但是该技术仍需要大量的人工参与:程序员在把数据输入进神经网络之前,需要对数据加上标签。而且复杂的语音或图像识别需要更多的计算机能力,这在当时 还不具备。

然而,在过去的十年中,辛顿和其他研究人员最终取得了一些基本概念上的突破。2006年,辛顿开发了一种更有效的方式来训练每 层神经元。第一层学习初级功能,例如分辨图像边缘或语音中的最小单元。它判断数字化像素或者声音的结合点——在这些地方更有可能找到要找的东西。一旦这一 层神经元准确地识别这些特点,数据就会被输送到下一层,在这一层会训练自己识别更复杂的特点,例如语音的组合或者图像的角落。在接下来的层中会重复这种过 程,直到系统能够可靠地识别音素或物体为止。

比方说猫。2012年6月,谷歌展示了迄今为止最大的神经网络之一,其中拥有超过10亿个连 接。由斯坦福大学计算机科学教授吴恩达和谷歌研究员杰夫·迪安带领的团队,给系统展示了一千万张从YouTubu视频中随机选择的图片。软件模型中的一个 模拟神经元专门识别猫的图像,其他专注于人脸、黄色的花朵,以及其他物体。由于深度学习的能力,即使没人曾经定义或标记过,系统也识别了这些独立的对象。

图 像识别提升的幅度让一些人工智能专家感到震惊。当时,系统对YouTube图像的物体和主题的分类准确率是16%。这可能听起来没什么大不了,但它比之前 的方法要好70%。迪安指出,在这一系统中有22,000个类别可供选择;正确地把物体放到相应的类别中需要所需要的能力,即使对于大多数人来说,往往也 是很有挑战性的——例如区别两种相似的鳐鱼。当要求系统把图像分类在1000多个更大的通用类别中时,准确率跃升到超过50%。

大数据

在 实验中训练多层虚拟神经元,用到了16,000个计算机处理器——那种Google为了搜索引擎和其他服务而开发的计算基础设施。迪利普·乔治是机器学习 创业企业Vicarious的联合创始人,他认为,在人工智能的最新研究进展中,至少有80%可以归因到人们可以使用更多的计算能力。

但 是除了谷歌数据中心的规模,还有些其他的东西。深度学习也得益于谷歌在多台机器之间分配计算任务的方法,这使算法可以运行得快得多。迪安在谷歌工作了14 年,这是他早期帮助开发的技术。它大大加快了深度学习神经网络的训练速度,使谷歌可以运行大型的神经网络,还可以给它输入多得多的数据。

目 前,深度学习已经改善了智能手机上的语音搜索。直到去年,谷歌安卓系统上的软件还会听错许多词,但在去年7月准备发布一个新版本安卓时,在迪安和他的团队 的帮助下,一个基于深度学习的系统替换了一部分语音识别功能。多层神经元能够对声音的诸多变化进行更精确的训练,所以该系统可以更可靠地识别声音片段,尤 其是在如地铁站台这样嘈杂的环境中。因为它更有可能明白实际上说出的内容,所以返回的结果可能更准确。几乎在一夜之间,错误的数量减少了25%;这个结果 如此之好,以至于许多评论家认为安卓的语音搜索功能比苹果Siri语音助手更聪明——虽然Siri更出名一些。

尽管有了这些进步,但并不是每个人都认为深度学习会把人工智能变成某种能与人类智慧相媲美的东西。一些批评者说,深度学习和人工智能往往忽略了大脑的生理基础,替之以太多的蛮力计算。

持这种观点的批评家之一是杰夫·霍金斯,Palm计算公司的创始人。霍金斯最新的企业Numenta正在开发机器学习系统,其灵感来自于生物学,并不使用深 度学习。Numenta的系统可以帮助预测能源消耗模式和风车之类机器即将失效的可能性。霍金斯在 2004 年出版了《人工智能的未来》,在书中介绍了大脑是如何工作的,以及这种原理将可能如何指导建造智能机器。他说,深度学习未能考虑时间的概念。他认为,大脑 处理感官数据流,人类的学习依赖于我们的按次序回忆模式的能力:当你看到关于小猫正在做些有趣事情的视频时,重要的是动作,而不是一系列静止的图像——就 像Google在实验中使用的那样。“谷歌的态度是:大量的数据解决一切。”霍金斯说。

但是,就算数据不解决一切的话,像谷歌之类公司在这些问题上投入的计算资源也不能忽视。深度学习的倡导者认为,计算资源是至关重要的,因为大脑本身仍然比今天的任何神经网络都复杂得多。“根本上说,你需要大量的计算资源来让设想成真。“辛顿说。

展望

虽然谷歌在未来的应用上尚有不足,但是前景依然耐人寻味。比方说,显然更好的图像搜索将对YouTube有利。迪安说,深度学习模型能够使用英语音素数据来 更快地训练其他语言的语音。更成熟的图像识别也可能让谷歌的自动驾驶汽车变得更好。再有就是谷歌的基础:搜索和广告。任何能更好更快地——甚至也许在用户 自己意识到之前——识别用户真正在找什么的技术,都会给这两者带来更大的改进。

这正是激起库兹威尔兴趣的原因。他已经65岁了,对智能机 器有着长期的愿景。在高中时,他写了能使计算机创作各种经典风格原创音乐的软件,并在1965年的电视节目《我有一个秘密》中展示了出来。从那时起,他的 发明包括几个第一——印刷品朗读机、能扫描和数字化任何字体打印件的软件,能以管弦乐队的声音重制音乐的合成器,以及一个使用大词汇库的语音识别系统。

今天,他设想了一个“电子朋友”,它能倾听你的电话谈话,阅读你的电子邮件,追踪你的一举一动——当然,如果你允许的话。所以,这个电子朋友甚至可以在你发 问之前,就可以告诉你你想知道的事情。这不是他在谷歌工作的短期目标,但它对谷歌联合创始人谢尔盖·布林来说很合适。布林说,在公司的初期,他想建立一台 有感知能力的计算机,相当于《2001太空漫游》里的HAL那样; 只除了一点,这部机器不会杀人。

现在,库兹威尔的目标是帮助计算机理 解自然语言,甚至用自然语言说话。他说:“我的任务是让电脑对自然语言有足够的理解,来做一些有用的事情——更好的搜索工作,更好地回答问题。”从本质上 讲,他希望建立一个IBM沃森的更灵活版本,他钦佩沃森在《危险边缘》节目中表现出的理解能力,它能应对如“一个上面有泡沫的馅饼发表的很长的、无聊的讲 话”这样古怪的查询。(沃森的正确答案是:“什么是蛋白酥、夸夸其谈?”)

库兹威尔是不是只专注于深度学习;虽然他说自己的语音识别方法是基于类似的大脑工作理论。他想为词汇、短语和句子的实际意义,包括通常会让计算机犯错误的含糊含义建立模型。“我有一个以图形化的方式来表示语言语义的初步想法。”他说。

相 应地,这将需要更全面的方式,来把句子的含义图形化。谷歌已经在机器翻译中使用这种分析方式提升语法准确率。自然语言理解也需要电脑明白那些含义——虽然 我们人类认为那些是常识。为了这个,库兹威尔将利用“知识图谱”。知识图谱是谷歌开发的目录,有700万主题、地点、人物以及其他东西,再加上它们之间数 以亿计的关系。这一工具是去年发布的,它提供了一种方法,能为搜索者检索其查询的答案而不仅仅是链接。

最后,库兹威尔计划采用深度算法来帮助计算机处理“软边界和语言的模糊性”。这的确听起来有点惊人。“自然语言理解不是会在某个时刻完成的目标,它比搜索更多,”他说。“这不是我认为我能完成的项目。”

虽然库兹威尔的愿景依然会在许多年后才会成真,但是深度学习可能会比较近的将来,对除语音和图像识别之外的应用产生影响,例如在研发新药物方面。在默克竞赛中,辛顿团队出乎意料的胜利,清楚地表明深度学习的效果:它可以在一个经验缺乏的领域里发挥作用。

这还不是全部。微软的彼得·李说,使用深度学习在机器视觉上的早期研究很有前途,将可用于工业检测和机器人引导之类的应用。他还设想了使用深层神经网络的个 人传感器,可以用它来预测健康问题;而且,遍布城市的传感器可能给深度学习系统提供信息,这样可以预测像是哪里会发生堵车之类的情况。

不可避免地,在试图模拟如人类大脑般深刻东西的领域中,单单一种技术不会解决所有挑战。但现在,这种技术在人工智能领域中走在前列。迪安说:“深度学习,是了解世界的一种真正强大的隐喻。”

版权声明:
本网站所有内容来源注明为“梅斯医学”或“MedSci原创”的文字、图片和音视频资料,版权均属于梅斯医学所有。非经授权,任何媒体、网站或个人不得转载,授权转载时须注明来源为“梅斯医学”。其它来源的文章系转载文章,或“梅斯号”自媒体发布的文章,仅系出于传递更多信息之目的,本站仅负责审核内容合规,其内容不代表本站立场,本站不负责内容的准确性和版权。如果存在侵权、或不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
在此留言
评论区 (1)
#插入话题
  1. [GetPortalCommentsPageByObjectIdResponse(id=1900797, encodeId=38e71900e97a2, content=<a href='/topic/show?id=5f9b119599d' target=_blank style='color:#2F92EE;'>#MIT#</a>, beContent=null, objectType=article, channel=null, level=null, likeNumber=38, replyNumber=0, topicName=null, topicId=null, topicList=[TopicDto(id=11959, encryptionId=5f9b119599d, topicName=MIT)], attachment=null, authenticateStatus=null, createdAvatar=, createdBy=872f168, createdName=gracezdd, createdTime=Wed Oct 22 20:59:00 CST 2014, time=2014-10-22, status=1, ipAttribution=)]
    2014-10-22 gracezdd

相关资讯

Nature:深度学习向人工智能迈进

3 年前,美国加利福尼亚州山景城神秘的谷歌X实验室的研究人员从 YouTube 视频中提取了 1000 万个静态图像,并将其输入“谷歌大脑”——由 1000 台计算机构成的网络,从而试图像一个蹒跚学步的孩子一样吸收这个世界的信息。经过3天寻找重复出现的模式后,谷歌大脑凭自身判断,它可以识别一些特定的重复类别:人类面孔和人类身体,甚至是猫。 谷歌大脑发现互联网上到处都是