Nature:深度学习向人工智能迈进

2014-01-14 koo 生物360

3 年前,美国加利福尼亚州山景城神秘的谷歌X实验室的研究人员从 YouTube 视频中提取了 1000 万个静态图像,并将其输入“谷歌大脑”——由 1000 台计算机构成的网络,从而试图像一个蹒跚学步的孩子一样吸收这个世界的信息。经过3天寻找重复出现的模式后,谷歌大脑凭自身判断,它可以识别一些特定的重复类别:人类面孔和人类身体,甚至是猫。 谷歌大脑发现互联网上到处都是



3 年前,美国加利福尼亚州山景城神秘的谷歌X实验室的研究人员从 YouTube 视频中提取了 1000 万个静态图像,并将其输入“谷歌大脑”——由 1000 台计算机构成的网络,从而试图像一个蹒跚学步的孩子一样吸收这个世界的信息。经过3天寻找重复出现的模式后,谷歌大脑凭自身判断,它可以识别一些特定的重复类别:人类面孔和人类身体,甚至是猫。

谷歌大脑发现互联网上到处都是关于猫的视频,这还曾引起一连串的笑话。不过,谷歌大脑是深度学习复兴的一个里程碑。深度学习是一项有着30年历史的技术,其中大量数据和强大的处理能力帮助计算机破解那些人类几乎可以凭直觉就可解决的难题——从识别人脸到理解语言。

深度学习本身是对神经网络这个更老的想法的复兴。这些系统的灵感大多来自于大脑中紧密连接的神经元,通过改变模拟神经连接的强度来模拟人脑学习。谷歌大脑拥有约 100 万个模拟神经元和 10 亿个模拟连接,比之前任何深度神经网络强度都要高 10 倍。该项目建立者 Andrew Ng 目前是加州斯坦福大学人工智能实验室的负责人,他的开发已经使深度学习系统的强度又提高了 10 倍。
人工智能(AI)领域取得的这些激动人心的进步试图让电脑像人类一样思考。纽约大学数据科学中心主任、深度学习领域先驱 Yann LeCun 说:“人工智能已经失败了无数次,其间只有少许的进步。如今它实现了一次超越。”

“在未来几年,我们将看到一种疯狂的情况:很多人会跟随深度学习的潮流。”加州大学伯克利分校从事图像识别研究的 Jitendra Malik 表示同意。但是从长远看,深度学习并不占上风,一些研究人员正在寻求其他有前景的技术。“我是不可知论者。” Malik 说,“随着时间的推移,人们会决定不同领域的最佳技术。”

初出茅庐

Malik 称,初期的深度学习程序并不比其他更简单的系统有更好的表现。另外,它们还很难处理。“神经网络管理一直是一种精妙的艺术,其中有一些黑魔法。”该网络需要从丰富的事例来源中进行学习,就像一个婴儿从世界收集信息一样。在 20 世纪八九十年代,并没有太多可用的数字信息,而且计算机消化这些存在的信息需要很长时间。当时的相关应用很少, LeCun 开发的技术是为数不多的应用之一,现在还被银行用于读取手写支票。



然而到了 21 世纪,像 LeCun 和其前任主管、加拿大多伦多大学计算机科学家 Geoffrey Hinton 这样的提倡者确信,计算能力的提高和数字数据的爆炸意味着是时候重新推动这一技术了。 Hinton 现在的学生 George Dahl 说:“我们想向世界展示,这些深度神经网络真的很有用,并能提供真正的帮助。”

在开始时, Hinton、Dahl 和其他一些人解决了语音识别中对商业应用很重要的一些难题。2009 年,研究人员报告称,通过典型数据集的练习,他们的深度学习神经网络已经打破了将口语转化为文本的精度纪录。

巨大飞跃

当谷歌在其安卓系统的智能手机操作系统中采用基于深度学习的语音识别技术时,它的文字错误率下降了 25%。“人们本来期待在 10 年后才能达到这种下降程度。” Hinton 表示,“这相当于实现了 10 项突破。”

同时,Ng 说服谷歌,让自己使用其数据和计算机,谷歌大脑由此产生。该项目指认猫的能力是对无监督学习的有力证明,无监督学习是最困难的学习任务,因为其输入中不包含任何像名字、标题或者类别等解释性信息。不过 Ng 很快就遇到了麻烦,谷歌公司之外很少有研究人员拥有进行深度学习研究的设备。因此 Ng 在回到斯坦福大学后,开始使用图像处理单元(GPUs)研发更大、更便宜的深度学习网络。Ng 说:“使用价值约 10 万美元的硬件,我们可以用 64 个 GPUs 建立一个有着 110 亿个连接的网络。”

胜利之后

不过,要想说服计算机视觉领域的科学家还需要更多努力:他们希望看到标准测试中的收获。 Malik 认为,在国际知名的 ImageNet 竞赛中取得胜利将会达到理想的结果。

在该竞赛中,各团队基于大约含有 100 万个图像、属于同类别的一个数据集开发计算机项目。2012 年, Hinton 的实验室成为首个使用深度学习的竞争者,其错误率只有 15%。这一次的胜利使 Hinton 在谷歌获得了兼职工作,而 2013 年 5 月,谷歌公司使用该程序更新了其图像搜索软件。
Malik 被说服了。他说:“在科学上,你必须接受经验证据,而这正是明显的证据。”之后,他使用该技术在另一个视觉识别比赛中打破了纪录。很多其他团队也跟随这一趋势,2013 年, ImageNet 比赛的参与团队都使用了深度学习技术。

随着深度学习技术在图像和语音识别方面取得胜利,人们越来越有兴趣将其应用于自然语言理解(例如,充分理解人类话语来改述或者回答问题)或者翻译语言。同样,这些工作目前可以通过使用手工编码规则和对已知文本的统计分析来实现,例如谷歌翻译。众包专家 Luis von Ahn 说:“深度学习技术将有机会比现在使用的技术做得更好。”他的公司 Duolingo 位于宾夕法尼亚州匹兹堡市,依赖于人,而不是计算机进行文本翻译。“每个人都认为,是时候尝试一些不同的东西了。”

与此同时,深度学习技术被证明可用于完成各种科学任务。2012 年,默克制药公司为那些可以帮助预测有用候选药物的最佳项目提供了奖金。 Dahl 和同事使用深度学习系统赢得了 2.2 万美元。
尽管深度学习技术取得了不少成功,但它仍处于起步阶段。“它是未来的一部分。” Dahl 称,“我们才刚刚开始。”

原文出处:

Nicola Jones. Computer science: The learni Ng machines. Nature, 09 January 2014; doi:10.1038/505146a

版权声明:
本网站所有内容来源注明为“梅斯医学”或“MedSci原创”的文字、图片和音视频资料,版权均属于梅斯医学所有。非经授权,任何媒体、网站或个人不得转载,授权转载时须注明来源为“梅斯医学”。其它来源的文章系转载文章,或“梅斯号”自媒体发布的文章,仅系出于传递更多信息之目的,本站仅负责审核内容合规,其内容不代表本站立场,本站不负责内容的准确性和版权。如果存在侵权、或不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
在此留言
评论区 (1)
#插入话题
  1. [GetPortalCommentsPageByObjectIdResponse(id=1879857, encodeId=d63d18e9857c7, content=<a href='/topic/show?id=3b2112532d8' target=_blank style='color:#2F92EE;'>#Nat#</a>, beContent=null, objectType=article, channel=null, level=null, likeNumber=26, replyNumber=0, topicName=null, topicId=null, topicList=[TopicDto(id=12532, encryptionId=3b2112532d8, topicName=Nat)], attachment=null, authenticateStatus=null, createdAvatar=, createdBy=2e6f107, createdName=liye789132251, createdTime=Sun May 25 13:13:00 CST 2014, time=2014-05-25, status=1, ipAttribution=)]
    2014-05-25 liye789132251