用深度学习做语音识别是种什么样的体验?

日期: 2015-11-17 作者:唐琼瑶 来源:TechTarget中国

还记得2001年上映的电影《人工智能》吗?机器人小孩大卫寻求母爱的执着赚了无数观众的眼泪。大卫聪明、懂事、敏感、体贴,会理解会思考,除了身体构架,其他都与人无异。然而,这仅仅存在于电影中。

现实世界里,人工智能经过几十年的发展,现在仍处于计算智能朝着感知智能迈进的阶段,除了能存会算,还能听会说,能看会认。

科大讯飞成立于1999年,是一家专业从事智能语音及语言技术、人工智能技术研究、软件及芯片产品开发、语音信息服务及电子政务系统集成的软件企业。

语音技术实现了人机语音交互,使人与机器之间沟通变得像人与人沟通一样简单。为此,科大讯飞提出了超脑计划,并制定了三大研究方向:一是贴近人脑认知机理的人工神经网络设计,二是实现与人脑神经元复杂度科比的超大人工神经网络,三是实现基于连续语义空间分布式表示的知识推理及学习智能引擎。

科大讯飞内核研发中心研发总监于振华表示:“我们的目标远大,但实现难度也大。超脑不可能做到与人脑一样,我们会聚焦在某个特定领域,达到或超过人脑的水平。”

左:科大讯飞深度学习平台研发主管张致江 右:科大讯飞内核研发中心研发总监于振华

语音识别需要深度学习技术

近年来,深度学习很火爆,拥有众多的应用场景,比如图像、语音、行为与股票分析。科大讯飞深度学习平台研发主管张致江说:“例如语音识别,需要强大的深度学习平台,进行训练效率优化。”

他带领20多人的团队搭建并维护深度学习平台。具体而言,硬件层面,全局设计网络方案与融合文件系统;软件层面,重新设计并糅合调度界面,使HPC与大数据开发一体化。

为了加速深度学习模型训练,除了简单的算法,也需要用到高性能计算平台,使用CPU+GPU的模式,以便让程序员对特定平台进行效率优化。

张致江表示,目前使用的CPU与GPU比例是2:4与2:8,即两个CPU插4或8张卡。“现在根本没有一个机器是针对深度学习的方式设计的。我们认为更适合的机器是1:4,因为最后需要的全是GPU。”

于振华补充:“深度学习的训练运行的基本是矩阵运算或卷积运算,这些运算几乎都是放在加速卡GPU上。”目前情况是所有的通信与数据传输要经过CPU,造成硬件构架的限制。

所以,程序优化的基本思路在于寻找合适的加速芯片,让平台更加稳定。同时需要对程序代码进行优化,这包括重写重构、使用更快的编译器、利用Spark与MPI并行框架,以及新的并行算法。张致江强调,在多卡并行情况下,必须考虑计算与带宽的平衡。

在HPC处理平台上,科大讯飞选择了NVIDIA Tesla系列产品。从最开始的GeForce,到K20m、K20Xm,再到K40m,可以说是NVIDIA的资深用户。张致江表示Tesla系列效率最高效果最好。“深度学习是算法有一个特点,单芯片性能越强越好,所以双GPU的K80不太适合我们。”

NVIDIA中国区政府销售总监Tomas He表示,GeForce在数量小,做研发的时候很适合。数据量大训练时间长的时候就需要7×24小时数据中心级的Tesla产品。“我们有不同层级的产品符合不同企业不同应用场景的需求。”

据悉,科大讯飞的深度学习平台使用了400多块Tesla芯片。于振华透露接下来的工作是持续优化训练平台,以及关注并研究新出来的CNN与DNN等技术。张致江表示,希望有更快计算与传输能力的GPU,提供更全面的深度学习方面的类库,希望价格也越来越好。

小结

在GTC 2015年大会上,NVIDIA提出让GPU芯片支持深度学习,维护cuDNN专门的加速库,并推出NVlink加速GPU通信,提升单节点性能,而且与曙光等厂商联合设计适合深度学习的运算机器。在这一次的人工智能浪潮中,NVIDIA的作用越加凸显。

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

相关推荐