7 Papers & Radios | 中国首次实现量子优越性；华为诺亚等预训练图像处理Transformer

作者：admin浏览数：2020-12-06 17:28:33

机器之心 & ArXiv Weekly Radiostation

参与：杜伟、楚航、罗若天

本周的重要研究包括首次实现中国量子优越性的量子计算原型机「九章」以及华为诺亚、北京大学等联合提出的预训练图像处理 Transformer。

目录：

ExpBERT: Representation Engineering with Natural Language Explanations
One-Shot Free-View Neural Talking-Head Synthesis for Video Conferencing
Weakly Supervised Person Re-ID: Differentiable Graphical Learning and A New Benchmark
Pre-Trained Image Processing Transformer
Trust the Model When It Is Confident: Masked Model-based Actor-Critic
Quantum Computational Advantage using Photons
Unsupervised part representation by Flow Capsules
ArXiv Weekly Radiostation：NLP、CV、ML 更多精选论文（附音频）

论文 1：ExpBERT: Representation Engineering with Natural Language Explanations

作者：Shikhar Murty、Pang Wei Koh、Percy Liang
论文链接：https://arxiv.org/abs/2005.01932

摘要：这篇论文中，斯坦福大学的研究者探讨如何使用语言解释来构建文本分类器。首先来看一个关系提取任务：模型需要根据一小段文本识别其中提到的两个人是否已经结婚。尽管当前最佳的 NLP 模型有可能仅基于数据来解决这一任务，但人类还能通过语言描述来暗示两人是否已经结婚，比如度蜜月的人通常是已婚的。这样的语言解释能用于训练更好的分类器吗？这项研究给了回答。

本文方法概览。

实验中使用的数据集。

关系抽取数据集上的实验结果。

推荐：ExpBERT 模型使用的是针对文本蕴涵任务训练的 BERT 模型。

论文 2：One-Shot Free-View Neural Talking-Head Synthesis for Video Conferencing

作者：Ting-Chun Wang、Arun Mallya、Ming-Yu Liu
论文链接：https://arxiv.org/pdf/2011.15126.pdf

摘要：如果让打工人用几个关键词总结 2020 年的生活，「视频会议」应该是其中一个。受疫情影响，这一年来，远程办公和视频会议正在成为新的潮流。在忍受会议枯燥的同时，很多人迷上了 AI 换脸，期望能够实现「一边开会，一边摸鱼」的梦想。此前机器之心也介绍过 Avatarify 这样的热门项目。只是…… 效果不一定很理想。

给出一个人的源图像，和一个人的动作视频（此处称为驱动视频 (driving video)，动作视频和源图像中的人物可以一致或不一致），如何合成逼真的说话者头部视频，即将源图像中的头像与驱动视频中的动作合二为一。源图像编码目标人物的外观，驱动视频决定输出视频中的人物动作。最近，针对这一任务，英伟达提出了一种纯神经式的渲染方法，即不使用人物头部的 3D 图模型，只使用在 one-shot 设置下训练而成的深度网络，进行说话者头部视频的渲染。

本文方法概览。

源图像和驱动视频特征提取。

视频合成。

推荐：GAN 发明者 Ian Goodfellow 在推特上点赞并表示：「Cool，博士时期的实验室伙伴曾研究预训练阶段的 ML 压缩，我记得这很难。」

论文 3：Weakly Supervised Person Re-ID: Differentiable Graphical Learning and A New Benchmark

作者：Guangrun Wang、Guangcong Wang、Xujie Zhang 等

论文链接：https://arxiv.org/pdf/1904.03845.pdf

摘要：近期，中山大学发布了一种基于可微图学习的弱监督行人重识别（person re-ID）方法和一个大型数据集。该方法结合可微图学习和弱监督学习方法，为行人重识别深度神经网络加入自动生成训练标签的模块并与其一体训练。相比普通的行人重识别方法，该方法不需要高昂的人工标注成本，并且几乎不增加计算复杂度也能达到领先的模型性能。

正是因为标注的简单，一个大型行人重识别数据集也诞生了，即 SYSU-30k。SYSU-30k 数据集包含 30,000 个行人身份类别，约是 CUHK03 和 Market-1501 的 20 倍。如果一个行人身份类别相当于一个物体类别的话，则 SYSU-30k 相当于 ImageNet 的 30 倍。该数据集总共包含 29,606,918 张图像。

就原理而言，该方法首先将行人图像按拍摄时间段分组成袋并分配袋类别标签，然后结合图模型和深度神经网络捕获一个袋中所有图像之间的依赖关系，从而为每张图像生成可靠的伪行人类别标签，作为行人重识别模型训练的监督信息；接着进一步将图模型可微化，实现图模型和行人重识别模型的一体训练；最后将图模型损失和重识别损失的线性组合作为总损失函数，利用反向传播算法更新网络所有层的参数。

方法示意图。

SYSU-30k 数据集样例。

整体框架图。

推荐：相关论文发表在国际期刊 TNNLS 上。

论文 4：Pre-Trained Image Processing Transformer

作者：Hanting Chen、Yunhe Wang、Tianyu Guo 等
论文链接：https://arxiv.org/pdf/2012.00364.pdf

摘要：预训练模型能否在视觉任务上复刻在自然语言任务中的成功？华为诺亚方舟实验室联合北京大学、悉尼大学等提出底层视觉 Transformer，使用 ImageNet 预训练，在多项视觉任务上达到 SOTA。与自然语言任务相比，视觉任务在输入形式上有很大差别。Transformer 等模型在自然语言处理任务上展现出了强大的特征学习能力，使用大量数据进行预训练的策略获得了成功。因此，很多研究都在考虑如何在计算机视觉领域发挥 Transformer 模型与预训练的潜力。

IPT 模型结构。

IPT 模型与当前各项任务最好结果的对比情况。

超分辨率任务实验结果。

推荐：该研究认为输入和输出维度相同的底层视觉任务更适合 Transformer 处理。

论文 5：Trust the Model When It Is Confident: Masked Model-based Actor-Critic

作者：Feiyang Pan、Jia He、Dandan Tu、Qing He

摘要：人工智能顶级会议 NeurIPS 2020 将于 12 月 6 日 - 12 日线上召开，今年会议论文投稿数量创历史新高，相比去年增长了 38%，而接收率却为史上最低，仅为 20.1%。华为云最新强化学习成果「Trust the Model When It Is Confident: Masked Model-based Actor-Critic」成功入选。

这篇论文首次探索了有模型强化学习该「何时使用模型」，并基于不确定性预估提出全新算法 M2AC（Masked Model-based Actor-Critic），在样本效率和噪音环境下的表现均取得巨大突破。在连续控制任务中，M2AC 仅用 model-free 方法 SAC 1/5 的交互样本就能达到同等效果。有噪音环境下，在之前的 model-based 算法几乎失效的情况下，M2AC 仍表现鲁棒，并实现多达数倍的性能提升。

何时、如何用到 MBRL 技术来进行策略更新，是 M2AC 希望解决的问题。

M2AC 算法伪代码。

MuJoCo 基准实验结果。

推荐：M2AC 算法为强化学习的落地打下了一剂定心丸：即便环境交互成本高或环境复杂有噪音，算法依然能够稳健地学到好的策略。这是现实世界的智能决策系统必不可少的能力。

论文 6：Quantum Computational Advantage using Photons

作者：Han-Sen Zhong、Hui Wang、Yu-Hao Deng
论文链接：https://science.sciencemag.org/content/early/2020/12/02/science.abe8770

摘要：近日，中国科学技术大学潘建伟研究团队与中科院上海微系统所、国家并行计算机工程技术研究中心合作，成功构建了 76 个光子 100 个模式的高斯玻色取样量子计算原型机「九章」，其处理特定问题的速度比目前最快的超级计算机「富岳」快了一百万亿倍，同时也等效地比谷歌去年发布的 53 比特量子计算原型机「Sycamore」快一百亿倍。在应用方面，潘建伟表示，「我们将把它初步用于量子化学、图论组合数学的一些研究，甚至也可以用于一些机器学习的研究」。

「九章」量子计算原型机光路系统原理图。

推荐：这一成果使我国实现了量子计算的第一个里程碑——量子计算优越性，相关论文登上了国际顶级期刊《Science》杂志。

论文 7：Unsupervised part representation by Flow Capsules

作者：Sara Sabour、Andrea Tagliasacchi、Soroosh Yazdani、Geoffrey E. Hinton、David J. Fleet
论文链接：https://arxiv.org/pdf/2011.13920.pdf

摘要：胶囊网络旨在将一张图像解析为具有层次结构的对象、组件和关系。尽管很有潜力，但无法高效学习低级组件描述仍然限制了胶囊网络。为了解决这个问题，包括 Hinton 在内来自多伦多大学和谷歌研究院的研究者提出了一种新颖的自我监督方法，用于学习一张图像的组件描述符。在训练阶段，研究者将运动（motion）作为组件定义的有力感知线索，并使用表达解码器进行组件生成和具有遮挡的分层图像形成。

分割推理架构。

自监督训练。

Geo 和 Geo + 测试集上流体胶囊网络推理出的物体形状和可视化分割掩码。

推荐：实验表明，在存在多个对象、混乱背景和明显遮挡的情况下，我们可以发现鲁棒的组件。

ArXiv Weekly Radiostation

机器之心联合由楚航、罗若天发起的ArXiv Weekly Radiostation，在 7 Papers 的基础上，精选本周更多重要论文，包括NLP、CV、ML领域各10篇精选，并提供音频形式的论文摘要简介，详情如下：

本周 6 篇 NLP 精选论文是：

1. CPM: A Large-scale Generative Chinese Pre-trained Language Model. (from Minlie Huang)

2. Modifying Memories in Transformer Models. (from Sanjiv Kumar)

3. An Enhanced Knowledge Injection Model for Commonsense Generation. (from Ruofei Zhang)

4. Towards a Unified Framework for Emotion Analysis. (from Udo Hahn)

5. CLIMATE-FEVER: A Dataset for Verification of Real-World Climate Claims. (from Jordan Boyd-Graber)

6. ClimaText: A Dataset for Climate Change Topic Detection. (from Jordan Boyd-Graber)

本周 10 篇 CV 精选论文是：

1. Fully Convolutional Networks for Panoptic Segmentation. (from Jian Sun, Jiaya Jia)

2. UPFlow: Upsampling Pyramid for Unsupervised Optical Flow Learning. (from Jian Sun)

3. Just Ask: Learning to Answer Questions from Millions of Narrated Videos. (from Josef Sivic, Ivan Laptev, Cordelia Schmid)

4. Dual Pixel Exploration: Simultaneous Depth Estimation and Image Restoration. (from Richard Hartley)

5. Robustness Out of the Box: Compositional Representations Naturally Defend Against Black-Box Patch Attacks. (from Alan Yuille)

6. Unsupervised Part Discovery via Feature Alignment. (from Alan Yuille)

7. Nothing But Geometric Constraints: A Model-Free Method for Articulated Object Pose Estimation. (from Gregory D. Hager, Alan L. Yuille)

8. We are More than Our Joints: Predicting how 3D Bodies Move. (from Yan Zhang, Michael J. Black)

9. DeFMO: Deblurring and Shape Recovery of Fast Moving Objects. (from Vittorio Ferrari, Jiri Matas, Marc Pollefeys)

10. Counting People by Estimating People Flows. (from Pascal Fua)

本周 10 篇 ML 精选论文是：

1. Every Model Learned by Gradient Descent Is Approximately a Kernel Machine. (from Pedro Domingos)

2. PMLB v1.0: an open source dataset collection for benchmarking machine learning methods. (from Jason H. Moore)

3. FCM-RDpA: TSK Fuzzy Regression Model Construction Using Fuzzy C-Means Clustering, Regularization, DropRule, and Powerball AdaBelief. (from Fei-Yue Wang)

4. A Hypergradient Approach to Robust Regression without Correspondence. (from Hongyuan Zha)

5. Non-Stationary Latent Bandits. (from Craig Boutilier)

6. Probabilistic Grammars for Equation Discovery. (from Sašo Džeroski)

7. Imputation of Missing Data with Class Imbalance using Conditional Generative Adversarial Networks. (from Mohammed Bennamoun)

8. Iterative VAE as a predictive brain model for out-of-distribution generalization. (from Thomas Serre)

9. Edge-assisted Democratized Learning Towards Federated Analytics. (from Choong Seon Hong)

10. Latent Programmer: Discrete Latent Codes for Program Synthesis. (from Charles Sutton)

上一篇:创造历史！您的月球"土特产"正在派送中下一篇:苹果取消充电器被友商调侃：三成网友表示可以接受-iPhone 12,充电器,三星