小米 AI 实验室自研成果入选语音领域顶级会议 INTERSPEECH 2020

  • 应用分类
  • 游戏分类

小米 AI 实验室自研成果入选语音领域顶级会议 INTERSPEECH 2020

作者:admin浏览数:2020-07-30 21:05:21

近日,全球语音领域顶级会议 INTERSPEECH 2020公布了论文入选名单,小米 AI 实验室2篇论文被接收。

这是继小米 AI 实验室自研的自动化机器学习( AutoML) 论文 FairDARTS [1] 被 ECCV 2020 接收后,又一次入选顶会。

INTERSPEECH 是由国际语音通信协会 ISCA组织的语音领域的顶级会议之一,也是全球最大的综合性语音领域的科技盛会,在业内享有较高的声誉,对参与企业和单位有着严苛的准入门槛要求。

01

小米入选的2篇论文

都有哪些亮点?

在《Neural Architecture Search on Acoustic Scene Classification》[2] 中,首次将自动化神经架构搜索(Neural Architecture Search, NAS)技术应用在声学场景分类任务中,搜索得到的模型在 DCASE 2018 数据集 Task 5 上取得了 90.3% 准确率,同时模型的计算量 FLOPs 比基线模型减少了 25%,是有直接应用价值的轻量级模型。

该论文针对声音频谱图的特性用交替的单向卷积核替代常见的双向卷积核,将 MobileNetV2 模型适配为符合声学特征的基线模型,如 Figure 1 所示。

该论文采取了小米 AutoML 团队自研的 FairNAS [3] 神经网络搜索算法(Figure 2),首先用公平采样单条路径的方式训练一个包含所有模型的超网络,由此子网可以继承超网的权重来得到评估。

搜索的后端是 FairNAS 采用的 NSGA-II 演化算法,通过模型种群的不断迭代,最终得到当前搜索空间的帕累托边界,即当前限制条件下达到最优平衡的模型所在的边界。

另一篇入选论文《Exploiting Deep Sentential Context for Expressive End-to-End Speech Synthesis》中,主要讨论情感化语音合成在基于注意力机制的端到端语音合成上的优化。

以注意力机制为基础,特别是使用自注意力机制网络的语音合成系统,已经取得了最先进的表现,但是要在表现力丰富的数据库上建模,特别是在一些富有表现力的文本内容上不陷入一个平均的表达,是具有挑战性的。

为了提升最终生成音频的表现力,小米在以自注意力机制为编码器的基础上提出了直接聚合和加权聚合两种模型结构,来充分利用不同自注意力机制层所学习到的不同层级的韵律信息。在两个表现力丰富数据库上的实验表明,加权聚合的模型结构可以生成更富有表现力的音频。

02

小米声学语音技术

不止于此

近年来,小米在声学语音技术上的积累日渐成熟,并逐渐落地在小米的产品中。

在最近发布的小爱音箱Art上,小米领先业界首发了情感化语音合成。这是小米在语音合成领域继中英文端到端语音合成后研发的又一项重要技术,也为业界整体在机器情感生成和表达方面做出了第一步尝试。

小米声学智能感知利用声学场景分类方法和声学事件的实时检测算法相结合,理解用户实时的状态和多种家庭场景的功能特性,赋予小爱同学和小米 IoT 设备人性化的感知能力,为用户提供更多主动的、具有针对性的服务,例如婴儿哭声检测、猫狗宠物声检测、智能警报系统、智能动作检测以及家庭空间特性分类与标注等等。

小米的声学相关技术,将借助深度学习和 NAS 的快速发展,之前难以实现的想法和难以落地的算法将获得新的机会。

NAS 作为前沿的深度学习技术,是 AutoML 的重要组成部分,当前 NAS 重要的两个方向分别是本文采用的超网和遗传算法相结合的方式,以及当前炙手可热的可微分搜索。

未来的 NAS 将侧重于高效和实用,另外根据不同的领域和场景,需要根据领域专家知识来设计相应的搜索空间及评测方法,因此离不开 NAS 专家和领域专家的通力合作。

NAS 目前已经在视觉领域和 NLP 领域取得了很多成果,但在声学领域的探索和应用才刚刚开始。随着深度学习端到端方法(end-to-end)在声学领域的不断深入,有很多传统的声学和语音的问题也将从 NAS 技术中获益,比如语音唤醒、声纹识别、TTS、ASR 等关键任务,相信 NAS 也将给声学带来新的发展契机。

引用:

1. Fair DARTS: Eliminating Unfair Advantages in Differentiable Architecture Search http://arxiv.org/abs/1911.12126

2. Neural Architecture Search on Acoustic Scene Classification https://arxiv.org/pdf/1912.12825.pdf

3. FairNAS: Rethinking Evaluation Fairness of Weight Sharing Neural Architecture Search https://arxiv.org/abs/1907.01845

相关软件

相关文章

推荐文章