人机大战第二场上演逆天对决，百度大脑接受「水哥」下轮挑战！

2025-03-19 06:07 来源：尚腻网点击：

人机大战第二场上演逆天对决，百度大脑接受「水哥」下轮挑战！

在今晚的《最强大脑》第二轮人机大战中，搭载着百度大脑的小度机器人和人类选手以 1:1 的比分打成平手。周董和水哥的相继亮相，以及比赛环节的扣人心弦，让这场人机大战成为了一场看点颇多的比赛。

这次的题目到底难到了什么程度？

不同于上一场的人脸识别比赛内容，这次的比赛围绕着声音识别展开。在正式比赛开始之前，小度就以一句对主持人蒋昌建像模像样的模仿发言惊艳四座。据悉，小度机器人此举正是运用了依托百度大脑而取得突破性进展的个性化语音合成技术，利用这项技术，人人都可以拥有自己的声音模型。这一次为了让小度学会主持人说话，共录制了总长度在 50 分钟左右的蒋昌建的声音。

而让在场的评委和名人堂选手都高呼「逆天」的本次声音识别大战，是这样进行的：正式比赛环节「不能说的秘密」，由担任嘉宾的周杰伦在 21 位专业合唱团员中任选出三位歌唱者，在现场与其进行通话，而人机需要共同根据通话中的只言片语，在随后的合唱表演中将三位歌唱者找出。

最终，小度机器人和辨音神童孙亦廷都只成功找出了 1 位歌唱者，而本场比赛最惊人的地方之一，便是第一道题的回答，小度和孙亦廷都选出了完全相同的错误答案。

这场比赛究竟难在哪里？要进行声音识别，小度面临着哪些难题？要回答这些问题，我们先来看看机器是怎样进行声音识别的。

小度是怎样进行声纹识别的？

一个基本的声纹识别过程如下图所示。

声纹识别的一般步骤图示。

简单而言，包括两个步骤：声纹注册阶段和声纹测试阶段。

在本次《最强大脑》的比赛中，整个过程可以这样来表示：

本次人机大战中，大合唱阶段即可视为声纹注册阶段，通过收集每个合唱队员的唱歌语音，得到能够表征该合唱队员的个人特征，小度从而构建出了 21 个合唱队员的声纹模型库。

当「线人」在与周杰伦进行对话时，小度和孙亦廷截获到断断续续的语音，这个过程即可看成是测试阶段。小度通过提取该测试语音的说话人特征，然后与模型库中的 21 个合唱队员依次进行相似度计算，相似度最高的合唱队员即被小度认为是真实的线人。

声音识别人机大战对小度来说难在哪里？

难度一：泛化能力

衡量一个机器学习算法好坏的一个重要指标，就是机器能够处理学习时没有遇见过的样本的能力，这种能力被称之为「泛化能力」。例如，如果你让机器学习识别狗，用的样本都是成年的阿拉斯加，那么算法在遇到泰迪时，就会极有可能得出泰迪不是一只狗的结果。

传统的声纹识别任务在注册和测试阶段的形式都是匹配的正常说话，而在本次《最强大脑》的比赛中，小度和人类选手都需要先听歌唱者说话的声音，再从唱歌的声音中找出原先说话的人。这样一来，注册的语音就变成了唱歌，而测试时则是正常说话。

因此，小度机器人要想成功辨别，首先就得学会同一个人在唱歌和说话时的差异，这对声纹识别算法的泛化能力提出了更高的要求。如何利用少量的唱歌和说话数据来在海量说话数据上进行自适应调整，是百度大脑这次所面临的核心难题。

难度二：注册语音的趋同效应

一般而言，正常人说话时的声音特征是具有明显差异的。而此次人机大战采用的大合唱形式则显著降低了不同人声的差异性。

合唱本身就要求所有歌唱者的声音能像一个人那样整齐，因此不同成员的唱歌样本就存在着趋同效应——大家会刻意通过改变发音习惯等来使得合唱达到更好的效果。由此一来，对机器来说，分类难度就产生了明显变化，就好比从识别猫和狗变成了识别阿拉斯加和哈士奇。

难度三：测试声音的断断续续

人在发音时，存在着协同发音效应，即一句话前后相连的语音总是彼此影响，而这些特性会被机器以数据驱动的方式学习到模型中。

而在本次比赛中，播放的语音被节目组特意处理为了不连续的信号，在面临断断续续的语音时，人的一些发音习惯就很可能被损坏掉，从而加大了小度机器人对原本说话人特征提取表征的难度。

难度四：线人测试声音时长过短

就目前而言，如果想要让机器学习算法通过一段语音有效地表征出说话者的信息，那么这段语音的时长必须足够长。否则，语音过短，系统性能便会严重下降。这就是声纹识别领域中的短时语音声纹验证难题。

而在本次节目中，（对应于小度的测试阶段）「线人」说话的时间过短，一整条语音不超过 10 个字，有效时间也小于 3s。这就给小度的算法带来了极大的难度——它需要更有效地从短时的、断断续续的线人说话声中提取出所能表征的个人信息。

除此外，还有哪些因素增加了比赛的难度？

现场环境噪声对声纹识别的准确率也有很大影响。虽然节目组使用了指向性非常好的录音设备来提供语音信息，但在现场，每个合唱队员在发声时或多或少都会混进一些别的声音。

人机大战为声音识别提供新思路

在此次声音识别人机大战中，百度大脑团队充分利用了百度语音识别准确率高和海量训练数据的优势。吴恩达博士在今天接受媒体采访时透露：「在此次人机大战之前，我们使用了2万个人的数据和超过5000个小时的训练时间来训练我们的模型。」百度大脑团队在 DNN-ivector 系统中训练了一个高质量的发声单元分类网络，通过长时间的训练和数据优势，获得了说话人层面标记的数万 id 数据并以此来进行声纹模型训练。

板书狂人Andrew又来讲课了……

值得注意的是，在本次比赛中，小度使用了两套算法来进行声音识别。两套算法都是目前声纹识别领域比较经典的算法，一是基于 DNN-ivector 的系统，一是基于端对端深度神经网络的说话人特征提取。同时使用两套系统能分别从不同角度对说话人的特征进行提取，这样能有效提升系统的鲁棒性（Robustness）。

算法1 : DNN - ivector

算法2 : 基于端到端深度学习的说话人提取

吴恩达还表示，百度大脑的算法在目前已经达到了很好的效果，不过仍然还有很大的提升空间，希望在未来能获得更优的方法，比如使用更多数量的模型来进行综合计算。

在面对小度与孙亦廷选择同一个错误答案的情况时，百度语音团队的成员也表示他们非常意外。在小度和人类选手都进行了误判后，节目随后便对正误答案中的二人再次进行了现场声音对比，观众们都能明显感觉到，两人在唱歌时几乎不分彼此，声线实在太一致了。这场依据歌声来作为模板进行比对的识别中，机器和人都选择了同一个错误答案，恰好也说明了人类选手和小度的声音识别能力都已达到了很高的程度。

「小鱼在家」视频对讲机器人。

据称，在语音识别的战略和研究方向上，百度在近期内依然会把 to C 产品当做重点，包括手机百度语音搜索、百度输入法，以及 2017 年要重点推动的 DuerOS 中的语音交互功能。值得一提的是，百度目前已经推出的「小鱼在家」视频对讲机器人正是搭载了 DuerOS 系统，用户只需使用唤醒词「小鱼小鱼」，即可实现在家通过语音对话方式实现播报新闻、设闹钟、叫外卖等多种秘书功能。

吴恩达曾这样描述语音识别对于人类未来生活的意义：「如果语音识别准确率从 95% 提升到 99%，我们就将从几乎不用它到时时刻刻都在用它。」

第二次人机大战可谓是扣人心弦，1:1 的平手也让我们同时见证了人类和机器在声音识别上的强大能力。面对如此高难度的题目，无论是年仅 10 岁的孙亦廷还是原本并不擅长声音识别的机器人，能达到这样的水准已是相当不易。

人机大战的核心并不在于人类和机器的割裂，而是让我们看到机器和人类智慧目前的极限，以及进步的空间。相信经过本次比赛，百度乃至全中国的科技团队对声音识别领域机器还需要的研究会产生新的思路。

本期的《最强大脑》结尾，代表人类终极脑力的水哥已经登场。下周五，小度机器人和水哥王昱珩又会带来怎样的巅峰对决？

无论是对小度还是水哥而言，这既是一次挑战强劲对手的机会，同时也是挑战自己的机会。水哥代表着人类顶尖脑力水平，而小度和它所搭载的百度大脑，则代表了现在中国最顶尖的人工智能。两者之间的比赛，是一场真正的角力，与最强的对手比拼，才能探出自己最强的水平。感谢水哥的出山，让我们能再次看到一场中国最巅峰的人机大战，下周五，我们不见不散。