在大厂追声音的人

学者欧宁提过一个观点:在一个视觉“极大丰饶”的时代,由声音构成的听觉江湖亟待被大众唤醒。

今天是第22个世界知识产权日,我们关注一群把智能语音技术革新变成一项专利的专业人士。他们是一群做语音识别的技术人,也是优化生活的“声音猎手”。

透过他们在大厂研究声音的故事,我们重新定义了“感官享受”——它从来不止是提升视觉、触觉、味觉的愉悦,在一个数字化浪潮席卷全球的移动互联时代,象征听觉的声音从未缺席,也不可能缺席。

文|白莉莉

一不留神,“声音猎手”在电影院走神了。

大荧幕里放的是科幻电影《地心引力》,影院里环绕的是人手抓栏杆的低频音、卫星碎片袭来的撞击声、千钧一发时的心跳和呼吸声,座位上闪现的是眯眼睛、咽口水、被剧情牵着走的紧张观众。

王珺眉头一皱,向自己抛出了一个疑问:这段低频音,它的声音对象(object)该怎么提啊?怎么环绕效果会更好?

图|电影《地心引力》

又一次地,她“犯了职业病”。

不仅在电影院,“声音猎手”有时会在驾驶室里陷入沉思。

有天下班后,陈杰捎同事回家,坐副驾驶的同事一上车就接了个电话,这让陈杰无法进行车内的“语音唤醒”——车里说话的人一多,车载语音识别就“懵圈”了。“一有干扰声,语音就无法识别,看来得想个招儿。”陈杰心想。

这一想,就想了十几分钟。

王珺和陈杰是腾讯AI Lab语音技术中心的员工,前者在深圳,后者在北京。他们的工作,是为设备提供在复杂语音环境下,从麦克风阵列采集声音,对声音信号增强处理后,以便更好地进行唤醒和识别。

用更通俗的话来说,就是在智能家居、车载语音交互、智能会议硬件,把噪声、杂声、干扰声分离,降低语音收集的错误率,在一个复杂、嘈杂、不确定的听觉环境里,让声音的传递变得更靠谱,更高效。

学者欧宁提过一个观点:在一个视觉“极大丰饶”的时代,由声音构成的听觉江湖亟待被大众唤醒。而声音被激活、唤醒的这个过程,离不开王珺和陈杰这样的“声音猎手”——“感官享受”四个字,从来不止是提升视觉、触觉、味觉的愉悦,在一个数字化浪潮席卷全球的移动互联时代,象征听觉的声音从未缺席,也不可能缺席。

或许出于职业习惯,声音猎手们偶尔会犯“职业病”,会“思考人声”,会在一起搭建场景订制的“最优模型”,会在一起调试声音素材的“最佳状态”。

他们是一群做语音识别的技术人,也是优化生活的“声音猎手”。他们负责捕捉声音,但其实更希望你“忘掉”声音。

01.

没有跑偏

王珺对声音最深的印象来自父亲。

记忆里“特牛的老爸”,利用业余时间倒腾出了一个自制的矿石收音机,“自己可以收声,小时候觉得他简直无所不能。”

高考时,她没报当时被捧为“21世纪的学科”的生物系,也没填自己最喜欢的物理专业,(“大学念物理系,既高深又害怕”),而是报了北大电子信息科学与技术专业——一个前身被称作“无线电”的专业。“我爸当时特开心,觉得我继承了他对声音的志趣。”王珺说。

图|王珺(左)和妹妹同时从中科院声学所毕业

自成年起,王珺就一直在和声音打交道。2004年,她从北京大学进入中科院,加入了中科院的声学所网络与新媒体技术研究中心,开始硕博连读。博士毕业,她的论文拿了“院长奖”,论文题目很长:“基于本体聚合多层描述符的音乐情感信息检索研究”。

事实上,“我的研究轨迹一直专注声音领域,从来没有跑偏过。”王珺说。当年北大的本科同学,有的半路去做金融,有的转型入局房地产,“只有我在技术的路上,一条道走到黑。”

在喧嚣时代背景下,踽踽独行的“声音猎手”略显孤独,但好在因专业技术设置的门槛,造就了一个小众的“声音猎手”群体。而这个群体的内部,也慢慢衍生出了一个个在语音智能化之路上“同频共振”的个体——王珺还记得,自己读博期间参加过谷歌举办的一个暑期开源项目,项目吸引了全世界的开发者,自己所在的小组和音乐、声音有关。后来加入杜比实验室时,她发现在巴塞罗那分部的小组成员,几乎都是当年通过暑期项目认识的小伙伴。

在声音猎手的世界里,会有很多灵光乍现时刻,有时,还会因为思考模式完全相同,彼此引为知己。王珺至今记得,有次被问到自己最爱的电影音效设计时,她和一位世界顶级的音频工程师同时说出《怒海争锋》这个电影名,“自己竟然和顶级艺术创作者的品味如此一致——那简直就是我的高光时刻。”

02.

鸡尾酒会效应:

一个理论,一道难题

不仅在电影领域,声音猎手关注的领域,遍及日常生活的每一细节。

中科院声学所硕士毕业后,陈杰从象牙塔走向声音江湖。和本文开头,王珺在电影院因为思考声音问题而“断片+出戏”类似,陈杰也习惯在普通生活场景里,寻找智能语音的优化方案。

前文提到在面对车载语音系统时陷入的沉思,只是他面对声音时“入戏太深”的常规操作之一,“经常遇到的一个问题是:我在家看电视,但同时又在跟一个音箱交互。智能音箱在播放音乐,电视里也有电视剧的声音。这时候如果要做声音采集的话,接受声音的设备也在播放声音,就会互相干扰,所以要做一个回声消除的操作——把自己刚才播放的声音消灭掉。”

不夸张地说,声音猎手们每天都在面对以上的复杂环境,以及藏在复杂环境中的各种声音。但其实距今70年以前的1953年,英国认知科学家科林·谢利(Colin Cherry)在研究选择注意机制时,就把人们在复杂听觉环境下的认知,总结成了一个理论——鸡尾酒会效应。

“鸡尾酒会效应”是指,在非常嘈杂或者多人同时说话的环境中,比如鸡尾酒会上,每个人都有一个特点,即能够把注意力集中在某一个人的声音上,屏蔽掉周围的说话声或者噪音,非常好地听懂所需关注之人的说话声音。

一个不可忽视的现实是:当你在户外、酒会等高噪声、嘈杂的环境中使用手机助手、智能客服等语音服务时,环境的噪声会对目标人物语音的收集带来极大干扰,你对语音收集反馈的错误率也会随之提升。

这也成了陈杰、王珺和他的同事们希望破解的一大难题。

03.

“让机器向人类学习”

“让机器向人类学习”。这是在面对鸡尾酒会效应时,AI Lab语音技术中心在语音分离增强方面采取的一个妙招。

按照一般的技术和逻辑,要通过音色信息对目标对象的语音分离增强出来,需要尽可能多,尽可能长地采集目标对象说的话,这种长语音样本,专业词叫做“适应语音”,然后通过对适应语音求均值,来获得声音鲁棒(指控制系统在一定的参数摄动下,维持其他某些性能的特性)、稳定的绝对表征。

王珺对这段抽象的文字进行了解释。绝对音感是指一种能在没有参照音的情况下,仍能辨认出由乐器或周围环境发出的任何音调的能力,“举个例子,周杰伦就有绝对音感,别人无意间碰到钢琴上的几个键,他一听就知道具体碰到了哪几个键。”

拿拥有绝对音感的群体做类比,“如果我们拿绝对的声音信息去做编码,就需要收集很长的参考信号,然后再做区分,并训练一个复杂的模型,这是一个高能耗、低能效的过程。”王珺说。

图|王珺在工作

这个灵感点醒了AI Lab团队。在团队看来,拥有相对音感的普罗大众,恰恰是系统和机器最需要学习的对象。

希望让机器向人类学习,这让团队开辟了另一个思路:研发一个用于提取目标说话人语音的深度提取网络方法。用团队总监苏丹的话说,“只要人说出一个唤醒词,就把这个唤醒词作为一个锚点,通过这个锚点来确定说话人的音色,后续设置成只听这种音色的模式,而其他干扰的噪音、杂音等,会离锚点越来越远。”

那么,向人类学习了的机器,需不需要根据环境的改变,而更改技术模型呢?AI Lab团队的回答是:完全没必要。

对此,王珺把这个逻辑解释为“追逐目标锚点”。“采集下锚点后,我们就盯着这个锚点不再放松,目标也不会转移,然后识别这个锚点的音色特点,这个过程,并不以干扰的场景为转移。所以这是一个提取(extraction)的过程,而不是一个分离(separation)的过程。”

最终,在一个原本需要至少10秒适应语音才能识别的场景,这些“声音猎手”只用了不到一秒的时间,就对嘈杂环境下的说话人进行了精准识别。

04.

“我们这行的化境,

就是让听者忘记声音”

AI Lab语音技术中心研发的这项技术,被评为2021年腾讯年度专利奖金奖,专利名称叫“混合语音识别方法、装置及计算机可读存储介质”。

评委会称赞“本发明在业内首次提出’锚定对象’的思路”,而出发点,则是为了自动语音识别系统像人一样,在鸡尾酒会这样嘈杂的环境中,能屏蔽周围的噪音和干扰,将注意力集中在某一目标说话人的声音上。

从数据来看,声音猎手们的这项专利,可以适应小于1秒钟的语音长度(原有技术要求适应语音长度大于10秒);在与语音识别系统端到端联合使用时,字错误率相对下降了69%(行业原有顶尖水平为46%)。“这其实是一个拥抱海量数据的过程。在企业,你能直面用户痛点,知道哪些场景有改进的需求,面临的环境更复杂,当然成就感也更强。”苏丹说。

这是一个“服务于人”的过程,也是一次“科技向善”的努力。苏丹所说的“有改进需求的场景”,其实没有一个清晰的边界。

图|AI Lab语音技术中心团队

以AI Lab语音技术中心研发的这项专利为例,从手机助手、智能家居、车载交互等满足大众需求的应用,到智能客服、会议转写等智能化升级下的行业性需求,再到人机交互到远程会议语音降噪、口语翻译等人人交互场景需求,甚至还应用于某些特殊场景,比如无障碍人士的语音识别等。

王珺认为,把一项技术推向更广阔的生活舞台,“为的是找到更多同路人。”

她所说的同路人,不单单指声音猎手这个群体里的业内人士,还有那些因为鸡尾酒会效应引发的日常问题,而对声音充满兴趣的普通人。

对于声音猎手这个身份,她表示“充实并委屈着”,“我们这些搞声音技术的,一条路走到黑会有踏实感。与做视觉的比,通常我们没有多少秀场和机会,去展示自己的灵感和创造。有时候,也希望被看见,让人们看到声音背后的我们。”

她想了想,又说:“但如果你把声音技术做到顶级,达到化境,那也是件让人享受的事。”

图|生活中的王珺

那什么是化境?

“化境就是润物细无声,让观众、用户、普通人在沉浸式的体验里,忘记还有声音这回事,因为声音已经融入画面、场景里了。反过来说,如果人在体验一个产品时,总是不自觉地关注声音的好坏,总是有意无意地’出戏’,那这个声音就完蛋了。”王珺说。

“充实又委屈”的同时,她觉得声音猎手都是“矛盾并分裂”的,因为既想让大众了解自己所在群体的存在,又不想让大众“出戏”地关注、谈论声音技术,“讲真,这个真的好矛盾。”

-END-