百度语音入选MIT年度十大科技

27.02.2016  02:14

原标题: 百度语音入选MIT年度十大科技

  近日,美国权威杂志《麻省理工科技评论》(MITTechnologyReview)将语音接口列入2016年十大突破技术,百度新一代深度语音识别系统Deep Speech2位列其中。而百度的此项技术也成为本次入选的唯一一家来自中国科技公司的科技成果。

  《麻省理工科技评论》评价说:“百度的深度语音识别系统包含了一个非常大的、"深"的神经网络,它引入了数以百万计的转录语音。有时它在识别汉语语音片段方面,要比人为识别更加准确。

  百度语音识别准确率超越谷歌苹果

  2014年底,百度的首席科学家吴恩达及其团队发布了第一代深度语音识别系统Deep Speech,该系统主要专注于提高嘈杂环境下的英语语音识别的准确率,在噪音环境下,Deep Speech系统出错率要比谷歌、微软以及苹果的语音系统低10%以上。不仅如此,研究人员还加入了汉语语音查询功能,识别准确率也高于其他语音软件。同时,在安静环境下普通话的识别率接近97%。

  2015年9月,吴恩达在百度世界大会上介绍了百度在人工智能方面的进展。吴恩达表示,“现在语音识别可能已达到95%的准确度,但很多人没意识到95%的准确度到99%的准确度带来的不是量变是质变,做到99%准确,将彻底改变人与设备交互”。

  2015年底,百度研究院宣布硅谷人工智能实验室已经开发出了一种新型语音识别系统——深度语音识别系统(Deep Speech 2)。该系统能通过简单学习算法准确地识别英语和汉语。

  吴恩达评价称,百度成功的关键就是使用高性能的计算技术,由于效率提升,之前需要花费两周完成的实验现在只需要一天。

  未来 百度语音将挑战人机交互

  据介绍,百度深度语音系统具有快速准确的学习能力。出色的成绩背后是全中文数据超过10万亿次运算学习成果。目前该系统还在手机更多方言及口音信息方面,扩大训练数据;省去预处理环节,直接输入音频文件,再通过神经网络输出字符。

  而根据《麻省理工科技评论》报道,语音识别和自然语言理解相结合,将为互联网市场创造切实可用的语音接口。其中,百度通过收集人们常用词,筛选出有用的字符,并省去大量预处理环节,直接输入音频文件,再通过深度神经网络输出字符,从而大大提高系统运算效率。

  深度语音识别系统的成功,很大程度上要取决于百度规模庞大的基于GPU的深度学习基础设施。通过使用批处理技术将DNNs部署在GPUs上,Deep Speech的语音识别表现出了极高的训练效率。目前,该系统支持超过26万亿次浮点运算,可在几天内完成深度语言的集中训练。

  随着百度在语音技术方面的不断进步,语音接口变得更为实用和有效,将深度语音模型在更小的系统上运行是重要的趋势之一。百度正致力于将该语音模型缩小并植入手机等移动设备。未来,人们可更为便利地与身边的设备进行交流互动。文/记者王伶玲