2020最佳AI论文，都在这里了-品玩

由于全球新冠疫情仍未结束，今年不少学术会议延期或取消，召开的也大多在线上举行。尽管2020年发生了很多事情，研究者们仍然为人工智能技术的进步做出了大量重要的贡献。

位于蒙特利尔的 AI 内容创作者 Louis Bouchard (他的 YouTube 账号叫 What's AI) 汇总了一份2020年最值得关注的 AI 论文名单（https://github.com/louisfb01/Best_AI_paper_2020 ）。除了在相关领域内的各项指标上创造了新纪录，在应用层面带来了新的思路，这些论文也对偏见等 AI 道德方面的议题有所探讨。

为了读者的方便，Bouchard 还非常贴心地为入选的每篇论文，都提供了视频、短文介绍、论文链接和代码地址，帮助大家更快速理解论文的核心内容，还能最快速度上手用起来。

但首先，Bouchard 用一条视频汇总了这些论文的内容，还加上了包括 Gary Marcus、李飞飞、Luis Lamb 等 AI 大牛在今年发表过的对 AI 的展望：

以下是 Bouchard 整理的2020最佳AI论文列表，排名不分先后：

YOLOv4: Optimal Speed and Accuracy of Object Detection

简介：全称 You Only Look Once，YOLO 是一个超快速识别物体的计算机视觉算法，在今年4月已经升级到了第四版，来自作者 Alexey Bochkovsky 等人。

这篇论文最大的进步来自于研究者采用的数据增强方法，叫做"Mosaic and Self-adversarial training"（马赛克和自我对抗训练），使得 YOLOv4 的实时物体识别速度依然惊人，并且这一次在识别准确率上也有了非常大的提升。YOLOv4 在很多需要物体识别的场景都能排上用场，对于那些需要实时、高精度识别的场景更是十分关键。

论文链接：https://arxiv.org/abs/2004.10934

作者撰写的介绍文章：https://bit.ly/3rM3ubJ

代码：https://github.com/AlexeyAB/darknet

DeepFaceDrawing: Deep Generation of Face Images from Sketches

这篇论文提出的算法很有意思，正如上图所示，给它一张随笔肖像，它就能生成惟妙惟肖的“真”人头像——当然，肯定是假的，但看起来足以乱真。

这个 AI 也有很大用处，比如警察办案查找疑犯，或者各种需要大量“真”人头像填充的设计用途。但同时值得提及的是，不合理的使用这项技术可能会引发道德问题。

比如，今年就有一些海外媒体曾被爆出，一些评论员文章的作者其实都是假的，这些人有伪造的姓名、供职单位和教育经历，再配上一张头像，创建一个社交网络账号，迷惑性极强。

论文链接：https://bit.ly/37Y54za

What's AI 短文介绍：https://bit.ly/2JtvJdI

代码：https://github.com/IGLICT/DeepFaceDrawing-Jittor

Learning to Simulate Dynamic Environments with GameGAN

这项研究由英伟达多伦多AI实验室和日本游戏大厂万代南梦宫 *BANDAI NAMCO) 一同开发，技术来自前者，数据来自后者。

简单来说，仅对简单的游戏录像和玩家输入进行学习，GameGAN 就能够模拟出接近真实游戏的环境，还不需要游戏引擎和底层代码。它的底层是在 AI 领域很有名的生成对抗网络 (GAN)。

正是因为它的学习方式很简单，任何游戏它都能模拟出来，除了吃豆人这样的2D游戏，连 DOOM 这种3D游戏都可以。英伟达指出，这项技术有助于游戏开发者为已有的游戏开发全新的关卡。

论文链接：https://arxiv.org/pdf/2005.12126.pdf

英伟达论文介绍：https://bit.ly/2WXLg8G

代码：https://github.com/nv-tlabs/GameGAN_code

PULSE: Self-Supervised Photo Upsampling via Latent Space Exploration of Generative Models

在欧美电影里，你一定见过特工们对着一个模糊的监控录像说“增强”，旁边的技术员一通操作就真的做到了……这曾经是个经典荧幕梗，但随着 AI 技术的进步，竟然还就真的实现了。

PULSE 是一个所谓的“超级分辨率”算法，可以把一张最低16*16的照片增强到1080p的清晰度。当然，出来的照片肯定还是假的，毕竟是计算计算出来的，但 PULSE 采用了自我监督，用多张同一个人不同表情的高清照片进行压缩训练，结果是生成的高清假照片，其实和低清晰度照片的主人非常接近。

论文链接：https://arxiv.org/abs/2003.03808

论文介绍：https://bit.ly/2WXkPzX

代码：https://github.com/adamian98/pulse

Unsupervised Translation of Programming Languages

在两种编程语言之间互译，需要“源代码到源代码编译器”(transcompiler)。这类编译器通常依赖大量人工铺路搭桥，比如手写规则，非常耗时，而且效果不太好，翻译出来的语法也经常不对，需要进一步的人工编辑。

正如标题，Facebook AI 开发的这个 AI 结合了机器翻译方面的一些最佳研究,采用非监督学习技术，能够在 C++ 和 Python 两种编程语言的函数之间进行互译，而且能够理解不同语言的语法，能够泛化到 Java 等其它语言。

论文链接：https://arxiv.org/abs/2006.03511

论文介绍：https://medium.com/what-is-artificial-intelligence/this-ai-translates-code-from-a-programming-language-to-another-facebook-transcoder-explained-3017d052f4fd

代码：https://bit.ly/3aSrZO5

PIFuHD: Multi-Level Pixel-Aligned Implicit Function for High-Resolution 3D Human Digitization

这篇论文我们写过：G7领导人大跳神曲？这个三维生成AI要被网友玩坏了。它提出了一种全新的基于神经网络的算法：只用一张人物全身正面照片，几分钟的计算时间，就可以自动重建高分辨率细节丰富的3D模型。

和已存在的类似技术相比，PIFuHD的长处是：1）对于来源照片里并不存在的身体部位，比如背部，它可以”猜“出一个大概的，符合常理的结果。2）能够同时高精度还原照片中的人体模型和服装细节。

网友用这个算法进行了很多很搞笑的二次创作，比如把 G7 领导人复制成3D模型，强迫他们跳舞：

论文链接：https://arxiv.org/pdf/2004.00452.pdf

论文介绍：阅读此文

代码：https://github.com/facebookresearch/pifuhd

High-Resolution Neural Face Swapping for Visual Effects

过去几年，各种换脸工具我们都见过、玩过不少了。迪士尼也在研究这项技术，他们的研究员在这片论文里提出了一个算法，能够生成百万像素分辨率的换脸视频。换脸视频往往会出现各种瑕疵让人一看就知道是假的，不过迪士尼在这一点上想要做到尽善尽美。

这项技术在电影拍摄中很有用处。比方说，过去让大牌演员演打戏，往往都要用到武替，一般都是不露面或者快速闪过侧脸，尽量让观众看不出来，但凡露面的，都需要大量的后期逐帧修改。现在有了这项技术，就可以直接把演员的脸嵌套到原始素材上，极大地降低后期制作成本，提高电影制作的效率。

论文链接：https://bit.ly/2WRMnH0

论文介绍：https://bit.ly/2X8i7rL

GPT-3: Language Models are Few-Shot learners

GPT-3 我们已经写过很多次了，你可以通过此文了解这个史无前例版巨大的1750亿参数量的文本生成模型。随着 GPT-3 的发布，开发机构 OpenAI 也提供了可调用的 API 给开发者使用，而开发者用它做出了各种各样的神奇 demo。

论文链接：https://arxiv.org/abs/2005.14165

中文介绍：阅读此文

代码：https://github.com/openai/gpt-3

Learning Joint Spatial-Temporal Transformations for Video Inpainting

我们都知道抠图这件事，也就是从一张照片中把背景去掉，抠出主题的人和物。但如果你想要把前台的主题抠掉，保留一个完整的背景那就难了，毕竟主题把背景盖住了。

这篇论文解决的就是抠背景的难题，而且还是在视频上做。研究者设计了一个空间-时间 Transformer 神经网络，同时对视频的所有帧进行填补，效果优于已知的类似技术。

论文链接：https://arxiv.org/abs/2007.10247

论文简介：https://bit.ly/34VFbOr

Beyond the Nav-Graph: Vision-and-Language Navigation in Continuous Environments

操控机器人很容易，你只需要告诉它前进、后退、左转和右转。用自然语言对一个基于计算机视觉的机器人进行导航控制，难度则在另一个级别上了。正因为此，过去几年里有一些在此方面实现了重大突破的论文，在各大学术会议上都拿了奖。

来自俄勒冈州立大学、佐治亚理工和 Facebook AI 实验室的研究员，共同开发了这样一个自然语言导航模型，能够让机器人在完全未知的三维场景下，仅通过”前面过门往左转“、”停在茶几旁边“诸如此类的自然语言命令来实现三维视觉导航。

论文地址：https://arxiv.org/abs/2004.02857

论文简介：https://bit.ly/3pMfPLd

代码：https://github.com/jacobkrantz/VLN-CE

以上就是我们从 Louis Bouchard 汇总的2020最佳AI论文里精选的十篇优秀论文。你还可以访问 https://github.com/louisfb01/Best_AI_paper_2020 继续翻阅其它入选论文，比如老照片翻新、修改照片人物年龄、用计算机视觉算法取代绿幕等等——都很值得一看。

本文内容大部分来自 Bouchard 的汇总结果，硅星人仅提供部分中文翻译和一些补充解读。