您当前的位置: 主页 > O元生活 >带你了解 AI 的 5 大领域进展,各种开放原始码任你取用 >

带你了解 AI 的 5 大领域进展,各种开放原始码任你取用

发布时间:2020-07-08 浏览量:249人次

带你了解 AI 的 5 大领域进展,各种开放原始码任你取用

本文经 量子位 授权转载

2018 ,仍是 AI 领域激动人心的一年。

这一年成为 NLP(Natural Language Processing,自然语言处理)研究的分水岭,各种突破接连不断; CV(Computer Vision,电脑视觉)领域同样精采纷呈,与四年前相比 GAN(Generative Adversarial Network,生成对抗网路)生成的假脸逼真到让人不敢相信;新工具、新框架的出现,也让这个领域的明天特别让人期待。

近日, Analytics Vidhya 发布了一份 2018 人工智慧技术总结与 2019 趋势预测报告,原文作者 PRANAV DAR 。量子位在保留这个报告架构的基础上,对内容进行了重新编辑和补充。

这份报告总结和整理了全年主要 AI 技术领域的重大进展,同时也给出了相关的资源位址,以便大家更好的使用、查询。

报告共涉及了五个主要部分:
自然语言处理(NLP)
电脑视觉(CV)
工具和库
强化学习(RL)
AI 道德

下面,我们就逐一来盘点和展望。

自然语言处理(NLP)

2018 年在 NLP 历史上的特殊地位,已经毋庸置疑。

这份报告认为,这一年正是 NLP 的分水岭。 2018 年里, NLP 领域的突破接连不断: ULMFiT 、 ELMo 、最近大热的 BERT。

迁移学习成了 NLP 进展的重要推动力。从一个预训练模型开始,不断去适应新的数据,带来了无尽的潜力,甚至有「NLP 领域的 ImageNet 时代已经到来」一说。

■ ULMFiT
这个缩写,代表「通用语言模型的微调」,出自 ACL 2018 论文: Universal Language Model Fine-tuning for Text Classification。

带你了解 AI 的 5 大领域进展,各种开放原始码任你取用

正是这篇论文,打响了今年 NLP 迁移学习狂欢的第一枪。

论文两名作者一是 Fast.ai 创始人 Jeremy Howard ,在迁移学习上经验丰富;一是自然语言处理方向的博士生 Sebastian Ruder ,他的 NLP 博客几乎所有同行都在读。

两个人的专长综合起来,就有了 ULMFiT 。想要搞定一项 NLP 任务,不再需要从 0 开始训练模型,拿来 ULMFiT ,用少量数据微调一下,它就可以在新任务上实现更好的性能。

带你了解 AI 的 5 大领域进展,各种开放原始码任你取用

他们的方法,在六项文本分类任务上超越了之前最先进的模型。

详细的说明可以读他们的 论文
Fast.ai 网站 上放出了训练脚本、模型

■ ELMo
这个名字,当然不是指《芝麻街》里那个角色,而是「语言模型的词嵌入」,出自艾伦人工智慧研究院和华盛顿大学的论文 Deep contextualized word representations , NLP 顶会 NAACL HLT 2018 的优秀论文之一。

带你了解 AI 的 5 大领域进展,各种开放原始码任你取用

ELMo 用语言模型(language model)来获取词嵌入,同时也把词语所处句、段的语境考虑进来。

这种语境化的词语表示,能够体现一个词在语法语义用法上的複杂特徵,也能体现它在不同语境下如何变化。

当然, ELMo 也在试验中展示出了强大功效。把 ELMo 用到已有的 NLP 模型上,能够带来各种任务上的性能提升。比如在机器问答数据集 SQuAD 上,用 ELMo 能让此前最厉害的模型成绩在提高 4.7 个百分点。

带你了解 AI 的 5 大领域进展,各种开放原始码任你取用

这里 有 ELMo 的更多介绍和资源

■ BERT
说 BERT 是 2018 年最火的 NLP 模型,一点也不为过,它甚至被称为 NLP 新时代的开端。

带你了解 AI 的 5 大领域进展,各种开放原始码任你取用

它由 Google 推出,全称是 Bidirectional Encoder Representations from Transformers ,意思是来自 Transformer 的双向编码器表示,也是一种预训练语言表示的方法。

从性能上来看,没有哪个模型能与 BERT 一战。它在 11 项 NLP 任务上都取得了最顶尖成绩,到现在, SQuAD 2.0 前 10 名只有一个不是 BERT 变体:

带你了解 AI 的 5 大领域进展,各种开放原始码任你取用

带你了解 AI 的 5 大领域进展,各种开放原始码任你取用

如果你还没有读过 BERT 的 论文 ,真的应该在 2018 年结束前补完这一课。
另外,Google 官方开源了 训练代码和预训练模型 。
如果你是 PyTorch 党,也不怕。这里还有官方推荐的 PyTorch 重实现和转换脚本 。

■ PyText
BERT 之后, NLP 圈在 2018 年还能收穫什幺惊喜?答案是,一款新工具。

带你了解 AI 的 5 大领域进展,各种开放原始码任你取用

就在上週末, Facebook 开源了自家工程师们一直在用的 NLP 建模框架 PyText 。这个框架,每天要为 Facebook 旗下各种应用处理超过 10 亿次 NLP 任务,是一个工业级的工具包。

(Facebook 开源新 NLP 框 架:简化部署流程,大规模应用也 OK)

PyText 基于 PyTorch ,能够加速从研究到应用的进度,从模型的研究到完整实施只需要几天时间。框架里还包含了一些预训练模型,可以直接拿来处理文本分类、序列标注等任务。

想试试?开源地址 在此

■ Duplex
如果前面这些研究对你来说都太抽象的话, Duplex 则是 NLP 进展的最生动例证。

带你了解 AI 的 5 大领域进展,各种开放原始码任你取用

名字有点陌生?不过这个产品你一定听说过,它就是 Google 在 2018 年 I/O 开发者大会上展示的「打电话 AI」。

它能主动打电话给美髮店、餐馆预约服务,全程流畅交流,简直以假乱真。 Google 董事长 John Hennessy 后来称之为「非凡的突破」,还说:「在预约领域,这个 AI 已经通过了图灵测试」。

Duplex 在多轮对话中表现出的理解能力、合成语音的自然程度,都是 NLP 目前水平的体现。

■ 2019 年展望
NLP 在 2019 年会怎幺样?我们借用一下 ULMFiT 作者 Sebastian Ruder 的展望:

预训练语言模型嵌入将无处不在:不用预训练模型,从头开始训练达到顶尖水平的模型,将十分罕见。

能编码专业信息的预训练表示将会出现,这是语言模型嵌入的一种补充。到时候,我们就能根据任务需要,把不同类型的预训练表示结合起来。

在多语言应用、跨语言模型上,将有更多研究。特别是在跨语言词嵌入的基础上,深度预训练跨语言表示将会出现。

电脑视觉(CV)

今年,无论是图象还是影片方向都有大量新研究问世,有三大研究曾在 CV 圈掀起了集体波澜。

■ BigGAN
今年 9 月,当搭载 BigGAN 的双盲评审中的 ICLR 2019 论文现身,行家们就沸腾了:简直看不出这是 GAN 自己生成的。

在电脑图像研究史上, BigGAN 的效果比前人进步了一大截。比如在 ImageNet 上进行 128 × 128 分辨率的训练后,它的 Inception Score(IS)得分 166.3 ,是之前最佳得分 52.52 的 3 倍。

除了搞定 128 × 128 小图之外, BigGAN 还能直接在 256 × 256 、 512 × 512 的 ImageNet 数据上训练,生成更让人信服的样本。

带你了解 AI 的 5 大领域进展,各种开放原始码任你取用

在论文中研究人员揭秘, BigGAN 的惊人效果背后,真的付出了金钱的代价,最多要用 512 个 TPU 训练,费用可达 11 万美元,合人民币 76 万元(约新台币 330 万元)。

不止是模型参数多,训练规模也是有 GAN 以来最大的。它的参数是前人的 2 – 4 倍,批次大小是前人的 8 倍。

研究论文

延伸閲读:
惊!史上最佳 GAN 现身,超真实 AI 假照片,行家们都沸腾了
训练史上最佳 GAN 用了 512 块 TPU,一作自述:这不是算法进步,是算力进步
史上最强 GAN:训练费 10 万起,现在免费体验,画风鬼畜又逼真

■ Fast.ai 18 分钟训练整个 ImageNet
在完整的 ImageNet 上训练一个模型需要多久?各大公司不断下血本刷新着记录。

不过,也有不那幺烧计算资源的平民版。

今年 8 月,在线深度学习课程 Fast.ai 的创始人 Jeremy Howard 和自己的学生,用租来的亚马逊 AWS 的云端运算资源, 18 分钟在 ImageNet 上将图像分类模型训练到了 93% 的準确率。

前前后后, Fast.ai 团队只用了 16 个 AWS 云实例,每个实例搭载 8 块英伟达 V100 GPU ,结果比 Google 用 TPU Pod 在斯坦福 DAWNBench 测试上达到的速度还要快 40%。

这样拔群的成绩,成本价只需要 40 美元(约 1200 元新台币), Fast.ai 在博客中将其称作人人可实现。

Fast.ai 博客介绍

延伸閲读:
40 美元 18 分钟训练整个 ImageNet!人人可实现
224 秒!ImageNet 上训练 ResNet-50 最佳战绩出炉,索尼下血本破纪录

■ vid2vid 技术
今年 8 月,英伟达和 MIT 的研究团队高出一个超逼真高解析影片生成 AI。

只要一幅动态的语义地图,就可获得和真实世界几乎一模一样的影片。换句话说,只要把你心中的场景勾勒出来,无需实拍,电影级的影片就可以自动 P 出来:

带你了解 AI 的 5 大领域进展,各种开放原始码任你取用

除了街景,人脸也可生成:

带你了解 AI 的 5 大领域进展,各种开放原始码任你取用

这背后的 vid2vid 技术,是一种在生成对抗性学习框架下的新方法:精心设计的生成器和鑒别器架构,再加上时空对抗目标。

这种方法可以在分割蒙版、素描草图、人体姿势等多种输入格式上,实现高分辨率、逼真、时间相干的影片效果。

好消息, vid2vid 现已被英伟达开源。

研究论文
GitHub 地址

延伸閲读:
真实到可怕!英伟达 MIT 造出马良的神笔
一文看尽深度学习这半年

■ 2019 趋势展望
Analytics Vidhya 预计,明年在电脑视觉领域,对现有方法的改进和增强的研究可能多于创造新方法。

在美国,政府对无人机的限令可能会稍微「鬆绑」,开放程度可能增加。而今年火热的自监督学习明年可能会应用到更多研究中。

Analytics Vidhya 对视觉领域也有一些期待,目前来看,在 CVPR 和 ICML 等国际顶会上公布最新研究成果,在工业界的应用情况还不乐观。他希望在 2019 年,能看到更多的研究在实际场景中落地。

Analytics Vidhya 预计,视觉问答(Visual Question Answering,VQA)技术和视觉对话系统可能会在各种实际应用中首次亮相。

工具和框架

哪种工具最好?哪个框架代表了未来?这都是一个个能永远争论下去的话题。

没有异议的是,不管争辩的结果是什幺,我们都需要掌握和了解最新的工具,否则就有可能被行业所抛弃。

今年,机器学习领域的工具和框架仍在快速的发展,下面就是这方面的总结和展望。

■ PyTorch 1.0

根据 10 月 GitHub 发布的 2018 年度报告, PyTorch 在增长最快的开源项目排行上,名列第二。也是唯一入围的深度学习框架。

作为谷歌 TensorFlow 最大的「劲敌」, PyTorch 其实是一个新兵, 2017 年 1 月 19 日才正式发布。 2018 年 5 月, PyTorch 和 Caffe2 整合,成为新一代 PyTorch 1.0 ,竞争力更进一步。

相较而言, PyTorch 速度快而且非常灵活,在 GitHub 上有越来越多的开码都採用了 PyTorch 框架。可以预见,明年 PyTorch 会更加普及。

至于 PyTorch 和 TensorFlow 怎幺选择?在我们之前发过的一篇报导里,不少大老站 PyTorch。

实际上,两个框架越来越像。前 Google Brain 深度学习研究员 Denny Britz 认为,大多数情况下,选择哪一个深度学习框架,其实影响没那幺大。

PyTorch 官网

延伸閲读:
PyTorch 还是 TensorFlow?这有一份新手指南
尝鲜 PyTorch 1.0 必备伴侣
TensorFlow 王位不保?ICLR 投稿论文 PyTorch 出镜率快要反超了

■ AutoML
很多人将 AutoML 称为深度学习的新方式,认为它改变了整个系统。有了 AutoML ,我们就不再需要设计複杂的深度学习网络。

今年 1 月 17 日,谷歌推出 Cloud AutoML 服务,把自家的 AutoML 技术通过云平台对外发布,即便你不懂机器学习,也能训练出一个定製化的机器学习模型。

不过 AutoML 并不是谷歌的专利。过去几年,很多公司都在涉足这个领域,比方国外有 RapidMiner 、 KNIME 、 DataRobot 和 H2O.ai 等等。

除了这些公司的产品,还有一个开源库要介绍给大家: Auto Keras

这是一个用于执行 AutoML 任务的开源库,意在让更多人即便没有人工智慧的专家背景,也能搞定机器学习这件事。

这个库的作者是美国德州农工大学(Texas A&M University)助理教授胡侠和他的两名博士生:金海峰、 Qingquan Song 。 Auto Keras 直击谷歌 AutoML 的三大缺陷:

第一,得付钱。
第二,因为在云端上,还得配置 Docker 容器和 Kubernetes 。
第三,服务商 Google 保证不了你的数据安全和隐私。

官网
GitHub

延伸閲读:
一文看懂深度学习新王者「AutoML」
开源的“谷歌 AutoML 杀手”来了
谷歌放大招!全自动训练 AI 无需写代码,全靠刚发布的 Cloud AutoML

■ TensorFlow.js
今年 3 月底的 TensorFlow 开发者会峰会 2018 上, TensorFlow.js 正式发布。

这是一个面向 JavaScript 开发者的机器学习框架,可以完全在浏览器中定义和训练模型,也能导入离线训练的 TensorFlow 和 Keras 模型进行预测,还对 WebGL 实现无缝支持。

在浏览器中使用 TensorFlow.js 可以扩展更多的应用场景,包括展开交互式的机器学习、所有数据都保存在客户端的情况等。

实际上,这个新发布的 TensorFlow.js ,就是基于之前的 deeplearn.js ,只不过被整合进 TensorFlow 之中。

谷歌还给了几个 TensorFlow.js 的应用案例。比如借用你的摄影机,来玩经典游戏:吃豆人(Pac-Man)。

官网

延伸閲读:
有笔记本就能玩的体感游戏!TensorFlow.js 实现体感格斗教程
谷歌 AI 魔镜:看你手舞足蹈,就召唤出 8 万幅照片学你跳
我不是偷拍的变态,只是在找表情包的本尊

■ 2019 趋势展望
在工具这个主题中,最受关注的就是 AutoML 。因为这是一个真正会改变游戏规则的核心技术。在此,引用 H2O.ai 的大神 Marios Michailidis(KazAnova)对明年 AutoML 领域的展望:

以智慧可视化、提供洞见等方式,帮助描述和理解数据
为数据集发现、构建、提取更好的特徵
快速构建更强大、更智能的预测模型
通过机器学习可解释性,弥补黑盒建模带来的差距
推动这些模型的产生

强化学习(RL)

强化学习还有很长的路要走。

除了偶尔成为头条新闻之外,目前强化学习领域还缺乏真正的突破。强化学习的研究非常依赖数学,而且还没有形成真正的产业应用。

希望明年可以看到更多 RL 的实际用例。现在我每个月都会特别关注一下强化学习的进展,以期看到未来可能会有什幺大事发生。

■ OpenAI 的强化学习入门教程
全无机器学习基础的人类,现在也可以迅速上手强化学习。

11 月初, OpenAI 发布了强化学习入门教程: Spinning Up 。从一套重要概念,到一系列关键演算法实现代码,再到热身练习,每一步都以清晰简明为上,全程站在初学者角度。

团队表示,目前还没有一套比较通用的强化学习教材, RL 领域只有一小撮人进得去。这样的状态要改变啊!因为强化学习真的很有用。

教程入口
GitHub 传送门

延伸閲读:
强化学习如何入门?看这篇文章就够了
人人能上手:OpenAI 发射初学者友好的强化学习教程 | 代码简约易懂
强化学习算法 Q-learning 入门:教电脑玩“抓住芝士”小游戏

■ 谷歌的强化学习新框架「多巴胺」
Dopamine(多巴胺),这是谷歌今年 8 月发布的强化学习开源框架,基于 TensorFlow 。

新框架在设计时就秉承着清晰简洁的理念,所以代码相对紧凑,大约是 15 个 Python 文件,基于 Arcade Learning Environment(ALE)基準,整合了 DQN 、 C51 、  Rainbow agent 精简版和 ICML 2018 上的 Implicit Quantile Networks 。

为了让研究人员能快速比较自己的想法和已有的方法,该框架提供了 DQN 、 C51 、  Rainbow agent 精简版和 Implicit Quantile Networks 的玩 ALE 基準下的那 60 个雅达利游戏的完整训练数据。

另外,还有一组 Dopamine 的教学 colab 。

Dopamine 谷歌博客
Dopamine github 下载
colabs
游戏训练可视化网页

■ 2019 趋势展望
DataHack Summit 2018 发言人、 ArxivInsights 创始人 Xander Steenbrugge ,也是一名强化学习专家,以下是来自他的总结和展望。

1、由于辅助学习任务越来越多,增加了稀疏的外在奖励,样本的複杂性将继续提高。在非常稀疏的奖励环境中,效果非常好。

2、正因如此,直接在物理世界训练将越来越可行,替代当前大多先在虚拟环境中训练的方法。我预测 2019 年,会出现第一个只由深度学习训练,没有人工参与而且表现出色的机器人 demo 出现。

3、在 DeepMind 把 AlphaGo 的故事延续到生物领域之后(AlphaFold),我相信强化学习将逐步在学术领域外创造实际的商业价值。例如新药探索、电子晶片架构优化、车辆等等。

4、强化学习会有一个明显的转变,以前在训练数据上测试智能体的行为将不再视为「允许」。泛化指标将成为核心,就像监督学习一样。

AI 道德

AI 被滥用事故在 2018 年被频频爆出: Facebook AI 帮助川普当选美国总统、 Google 与美国军方联手开发 AI 武器、微软为移民和海关执法局(ICE)提供云端计算和人脸识别服务。

每一次事故都会重新掀起一波对 AI 道德準则的讨论高潮,一些硅谷科技公司也再次期间制定了企业 AI 準则。

Analytics Vidhya 认为, AI 道德现在还是一个灰色地带,目前还没有所有人可以遵循的框架, 2019 年将有更多企业和政府制定相关条例。

AI 道德规範的制定,现在才刚刚起步。

延伸閲读:
谷歌将禁止 AI 用于武器,李飞飞等“反对与军方合作”事件始末
刚刚,Google 发布 AI 七原则:不开发武器,但会继续与军方合作
AI 助特朗普当选?FB 史上最大数据滥用曝光,牵出 ACL 终身奖得主

如何面对 AI 时代?

AI 时代学校该如何培育人才?资管系校友:「具备科技+人文的複合思考模式」
AI 巨头吴恩达发布《AI 转型指南》:五大步骤教 CEO 如何从零开始 AI 计画!
「AI 应用」市场将爆炸成长 10 倍以上!AI 新创要如何打好坚实基础?

上一篇: 下一篇:
可能感兴趣信息