国际声学、语音与信号处理国际会议ICASSP2016在上海国际会议中心落下帷幕。作为国内领先的人工智能语音交互科技公司,“出门问问”早早以顶级白金赞助商的身份支持ICASSP2016,与Google、微软、阿里等国内外巨头一起推动语音、图像信号处理相关学术发展。

出门问问在ICASSP2016

本次ICASSP2016上,出门问问受邀参会并展示了智能手表Ticwatch,受到热捧。一个重要原因是Ticwatch搭载的“你好问问”智能语音交互服务与火热了ICASSP2016会场的深度学习算法(Deep Learning)有着密切的联系。实际上,语音、图像等信号处理相关问题在这几年的迅猛发展离不开深度学习算法的应用。

“深度学习”的概念在上个世纪便被提出,但Hinton、Lecun等人在2006年发表的论文让“深度学习”重新焕发光彩,并使得相关的学术成果在实际应用中表现良好。它的灵感来自对人脑神经的研究,因此也称为深度神经网络“DNN”。这里的“深度”并非指算法有内涵,而是指神经网络层数多,因此也称为多层结构学习算法(这几种命名不完全对等,具体的差别涉及到学派)。实际中的“深度神经网络”算法与大脑神经结构差别极大,因此深度神经网络被称为端到端的机器学习算法或者多层联结算法或许更好些(联结主义流派的说法)。

基于深度神经网络算法的重大影响工作的出现,是在2012年之后。比如,Krizhevsky、Hinton等用深度学习大幅度提高了图片分类的准确率,奠定了图像分类模型“AlexNet”的地位;Dahl等大幅度提升了语音识别的准确率。

2012年以后,出门问问Ticwatch创始人兼CEO李志飞看到了人工智能语音技术应用的价值,快速组建了一直人工智能科学家和工程师的团队研究下一代语音搜索引擎——人工智能语音搜索引擎,并致力于将人工智能最先进成果引入大众消费品中。如今,出门问问已有一支出色的人工智能科学家团队,打造了拥有自主系统、自主智能语音搜索服务的Ticwatch智能手表。

前不久,出门问问又推出了微信公众号为载体的“魔法小问”私人智能助理以及“你好问问”为热词的“开车问问”司机专用语音APP。在出门问问这些产品的背后离不开学术人士发表的论文和学术界的讨论,而ICASSP作为信号处理方面的顶级会议,是深度学习发展的重要阵地。

在ICASSP2013,现今的Facebook人工智能负责人Yann LeCun发表了“使用大规模的无监督学习构建高层次特征”的论文(Building high-level features using large scaleunsupervised learning)。他们的工作让“机器自学”成为了现实,人们看到了深度学习未来发展的一个新方向。

微软研究院 首席研究员邓力在做学术报告

本届ICASSP2016上,微软提出了Cross Lingual TTS(跨语言语音合成系统),他们基于DNN(深度神经网络)做Senone(语素)映射模型,用KLD采样算法选取最优的匹配结果。微软小冰、小娜(Cortana)是大家熟悉的智能虚拟角色,小冰在某电视台做天气预报的声音便是由TTS(语音合成系统)生成的(不确定本次的成果是否已被使用在小冰身上)。

CMU(卡内基梅隆大学)教授Alan W Black现场交流

“深度学习”之外,ICASSP2016还有一些信号处理相关的有趣展台。IT4you(公司总部在挪威,ICT系统供应商,主要通过提高信息流和加强日常管理及相应咨询服务,帮助客户提升工作效率和竞争力)的歌唱合成系统利用特别的信号处理方法,可实时、自动合成音乐,用于工作放送或日常娱乐。一家美国公司通过传感器检测眼周围肌肉的运动,实现了环境音的定向获取。穿戴者眼球往左便只会听到左边的声音,往右对应,这有点像人耳可以在嘈杂环境中抓取特定声音。它如果被应用于军工或警装,可以在嘈杂环境中实时监测他人(坏人)的讲话。阿里巴巴本次带来了一些成果,包括声纹识别、情感识别、说话人识别的应用。这些技术被应用或者即将被应用在智能客服(淘宝的阿里小蜜)、操作系统。

总的来说,本次ICASSP2016在很多细节方面有大的突破,尤其是语音转换(Vocice Conversion)与语音合成(TTS)。

以语音合成(TTS)为例,解释了为什么从HMM(隐马尔可夫模型,一种统计模型)到深度神经网络(DNN),一方面引入帧级别的信息,另一方面用神经网络代替传统决策树;引入LSTM(Long-Short Term Memory,时间递归神经网络,神经网络算法中的一种)与GRU单元(GatedRecurrent Unit,LSTM变体)做对比,在LSTM的输出层加入MDN使得输出更精细化、更多样化。

另外,ICASSP2016对语音合成方面的“门”(Gate)问题深入谈论,门(Gate)多了会导致参数量变多,系统变得不再高效,而减少门是否会影响结果精准度?有人做实验证明,遗忘门作用极其重要,输入门以及输出门去掉即可,这样大大提高训练和生成的效率。

从基频的建模到清浊音的建模、使用深度神经网络对时长的建模、在神经网络声学模型的输入端引入更丰富的状态信息,这些都让语音合成更细致。

ICASSP2016上的这些学术成果拿到工程中能创造很大的价值,这也是出门问问大力赞助ICASSP2016的原因之一。实际上,ICASSP2016的赞助是出门问问坚持“产、学、研”一体的缩影。在过去几年,出门问问赞助过国内外的顶级学术会议,比如中国中文信息学会“CIPS 2015”暨第十四届全国计算语言学会“CCL 2015”、基于自然标注大数据的自然语言处理国际学术研讨会“NLP-NABD2015”。另外,出门问问在2013年7 上线了深度神经网络(DNN)系统,并与约翰霍普金斯大学(The Johns Hopkins University)语研究组保持合作关系,一起做语音方面前瞻性的技术探索。这使得出门问问赋予了科研成果投产机会,也让出门问问自己的系统与最新的科研进展同步。

围棋人机大战AlphaGo的胜利让人们对人工智能有了更深的认识,而AlphaGo的核心部分便是出门问问也使用的深度神经网络。本届ICASSP2016上,“深度学习”又成为亮眼的一环,而这将反馈到工程中,使“人工智能”为话题的创业创造更大的价值。出门问问正在做的就是这样一件事,以人工智能语音搜索服务为核心,打造下一代自然语言搜索引擎。

关于出门问问