普通话有口音?没问题!(创新故事)
本报记者 刘诗瑶
2015年12月14日 来源:人民网-人民日报
试想有一天,人只需对着手机说几句话,它便会自动精准识别你的需求,“一站式”轻松解决吃穿住行等问题。这并非幻想,“虚拟助理”正在进入人们生活。
最近,百度公司在汉语语音识别方面获得重大突破——能够做到在安静环境下,汉语普通话语音识别的准确率接近97%。
“百度研发出了基于多层单向LSTM的汉语声韵母整体建模技术,并成功把连接时序分类(CTC)训练技术嵌入到传统的语音识别建模框架中,再结合语音识别领域的决策树聚类、跨词解码和区分度训练等技术,大幅度提升线上语音识别产品性能。”
百度语音技术部负责人贾磊进一步解释说,通俗地讲,就是这个技术成功攻克了语音识别领域十多年来的一个困局,使语音识别相对错误率比现有水平降低15%以上,在安静的环境中,汉语普通话语音识别的识别率接近97%。
有了这个技术,对用户来讲,意味着识别准确率的提高和识别速度的提升。同时,对口音、方言、噪音环境、远距离讲话的识别率也会更好。
贾磊说,这项技术之所以被认为是重大突破,其中一个原因是降低了语音识别的成本消耗,有助于实现语音识别大规模产业化应用。“如果未来50%的搜索都使用语音的话,这个服务所消耗的后台服务器数目是惊人的。而百度的这项研究可以让后台消耗大大降低。”
据了解,百度将把这项技术应用于百度语音搜索等产品上,未来也会向各行各业开放基于此项技术的语言识别能力。开发者们能够使用这项基于新技术的语音识别能力来开发APP等各种应用。
未来,语音识别技术发展将很快进入10万小时训练阶段,以此覆盖千差万别的用户口音差异。语音识别的深度学习,也将进入数百GPU(图形处理器)并行训练的状态,计算能力和算法创新将围绕数据量展开。同时,语音识别技术会和语意理解、交互技术等形成整套解决方案,让机器更加智能。
在贾磊看来,“因为人使用语音的目的不是把语音转成文字,而是使用语音去和计算机或智能机器进行交互,获得所需的服务。这是未来的工业发展趋势,单纯地脱离服务、平台和计算能力去做语音技术的时代已经过去了。百度有场景、有内容、有需求,语音一定会做得越来越好”。