谁来接棒深度学习？

2024-03-25 16:51:16

正如之前的报道，深度学习似乎已经成熟，现在，我们的主要工作，要么是整合所有那些功能强大的新技术（聚合平台），要么是从那些巨大的 VC 投资那里赚钱。

（报道链接：https://www.datasciencecentral.com/profiles/blogs/strata-what-a-difference-a-year-makes）

我不是唯一一个注意到这一点的人。有几个参会者和参展商也向我说了类似的事情。就在前几天，我注意到，一个由备受尊敬的研究人员组成的团队评估了各种先进的分析平台的优缺点，他们的结论是，没有什么特别的东西值得报道。

我们为什么卡住了？我们卡在了哪里？

我们现在的情况实际上并不坏。我们过去两三年的进展都是在深度学习和强化学习领域。深度学习提升了我们处理语音、文本、图像和视频的能力。加上强化学习，我们在游戏、自动驾驶、机器人技术等类似的领域取得了重要进展。

基于那些技术的商业扩展尚处于最早期的阶段，比如，聊天机器人和客户的互动节省了大量的成本，为个人提供便利的新应用，如私人助理和 Alexa，私人汽车的 L2 级别自动化，如自适应巡航控制、事故避免制动和车道保持。

Tensorflow、Keras 等深度学习平台比以前更易于使用，而且，得益于 GPU，比以前更高效。

然而，已知的缺陷一点没有改变。

需要太多经过标注的训练数据。
模型训练要么需要花太长时间，要么需要占用太多昂贵的资源，而且仍然可能训练失败。
超参数，尤其是与节点和层级相关的，仍然是个谜团。自动化甚或是人们广泛接受的经验法则仍然遥不可及。
迁移学习只能从复杂到简单，而不能从一种逻辑系统到另一种。

我敢肯定，我们还可以列出更多。就是在解决这些主要的缺陷时，我们卡住了。

是什么让我们停下了脚步？

对于深度神经网络，人们现在普遍认为，如果我们继续推动，继续投资，就能克服这些缺陷。例如，从 80 年代到 20 世纪，我们知道了如何使用 DNN，我们只是没有硬件。等到硬件跟了上来，DNN 加上新的开源潮流开辟了这个新的领域。

所有类型的研究都有自己的势头。尤其是，一旦你在某个特定的方向投入了大量的时间和金钱，你就在那个方向上一直保持领先。如果你多年来一直为开发这些技能的专门知识而投入，那么你就不愿意弃船而逃。

换个方向，即使你并不完全确定应该是什么方向

有时候，你需要换个方向，即使你并不准确地知道那个新方向可能是什么。近日，处于领先地位的加拿大和美国 AI 研究人员就是那样做的。他们认为，他们的方向错了，需要从根本上重新开始。

去年秋天，Geoffrey Hinton 也表达过这个观点。Hinton 因为 80 年代末在 DNN 方面的突破而享誉世界。他现在是加拿大多伦多大学的荣誉教授，同时也是谷歌的研究人员。他说，他现在“非常怀疑”DNN 底层的核心方法反向传播。据他观察，人类大脑不需要所有那些标记的数据来得出结论，Hinton 说，“我的观点是抛开一切，重新开始”。

记住这一点，下面是一个有关新方向的简短调查，这些新方向介于纯粹的概率和载人登月之间，但据我们所知，都不是对深度神经网络的增量改进。

这些介绍都很简短，但无疑可以让你进一步阅读，以求全面的理解。

有些东西像 DNN，但不是

有许多研究都是严格遵循 Hinton 反向传播理论，他们认为，节点和层级的基础结构很有用，但连接和计算的方法需要做重大修改。

Capsule Networks（CapsNet）

我们最好从 Hinton 自己的新研究方向 CapsNet 开始。这和使用 CNN 进行图像识别有关，简单来说，问题是，CNN 对物体的姿态非常敏感。也就是说，如果同一个物体的位置、大小、方向、形状、速度、反照率、色彩、纹理等有差异，那么就需要针对每一种情况在数据集里增加训练数据。

在 CNN 中，这是通过大量增加训练数据和 / 或减少可泛化的最大池化层来处理的，但只能靠损失实际信息。

有许多人对 CapsNets 做了不错的技术性介绍，下面是其中一种，来自 Hackernoon。

Capsule 是神经层的一个嵌套集。在通常的神经网络中，你不断增加层数。在 CapsNet 中，你在一个单独的层里添加更多的层。或者换句话说，把一个神经层嵌入另一个神经层。Capsule 中的神经元可以获取图像中实体的上述属性。一个 Capsule 输出一个表示实体存在的向量。向量的方向代表了实体的属性。这个向量会被发送给神经网络中所有可能的父节点。预测向量的计算是用自己的权值乘以一个权重矩阵。哪个父节点的标量预测向量积最大，就增加哪个 Capsule 的信度。其余的父节点信度降低。这种路由协议要优于当前类似 max-pooling 这样的机制。

CapsNet 大幅减少了所需的训练数据集，在早期的测试中，其在图像分类方面也表现出了优越的性能。

gcForest

二月份，我们介绍了南京大学新软件技术国家重点实验室周志华和冯霁的研究成果，他们展示了一项名为 gcForest 的技术。他们的研究论文显示，gcForest 在文本和图像分类方面通常都优于 CNN 和 RNN。优势相当明显。

只需要一小部分训练数据。
在桌面 CPU 设备上运行，无需 GPU。
训练速度一样快，在许多情况下甚至更快，适合分布式处理。
超参数少很多，使用默认设置时性能更好。
依赖易于理解的随机森林，而不是完全不透明的深度神经网络。

简而言之，gcForest（多粒度级联森林）是一种决策树集成方法，保留了深度网络的级联结构，但使用与完全随机的树森林配对的随机森林组取代了不透明的边缘和节点神经元。要了解更多有关 gcForest 的信息，请查阅我们最初发表的文章。

Pyro 和 Edward

Pyro 和 Edward 是两种新的编程语言，结合了深度学习框架和概率编程。Pyro 是 Uber 和谷歌的合作成果，而 Edward 诞生于美国哥伦比亚大学，获得了 DARPA 的资助。结果就是这样一个框架，让深度学习系统可以度量预测或决策置信度。

在经典的预测分析中，我们可能会这样处理，使用对数损失函数作为适应度函数，处罚确信但错误的预测（误报）。截止目前，深度学习尚无定论。

举例来说，这有望应用在自动驾驶汽车或飞机上，让控制器在做出重大或灾难性决策之前，有某种自信或怀疑的自觉。无疑，这是你希望 Uber 自动驾驶汽车在你上车之前就知道的。

Pyro 和 Edward 均处于早期开发阶段。

看起来不像深度网络的方法

我经常遇到一些小公司，他们的平台内核里有非同寻常的算法。我深究过，但在大多数情况下，他们都不愿意提供真的细节，甚至都不愿意让我向人介绍他们在做什么。这种保密做法并不会影响其工具的效果，但是，在他们提供一些基准和细节之前，我真得无法告诉你内部发生了什么。将来他们最终揭开面纱时，我们要据此做出判断。

下面是截至目前我调查过的最先进的非 DNN 算法和平台。

层级时序记忆（HTM）

层级时序记忆（HTM）使用稀疏分布式表示（SDR）进行大脑神经元建模及执行计算，在标量预测（大宗商品、能源、或股票等东西的未来价格）和异常检测方面的性能均优于 CNN 和 RNN。

这是因 Palm Pilot 闻名的 Jeff Hawkins 在其公司 Numenta 里取得的成果。Hawkins 一直致力于研发一种以大脑功能基础研究为基础的强大 AI 模型，该模型没有像 DNN 那样的分层和节点结构。

HTM 的特点是可以非常快速地发现模式，仅需大约 1000 次观测。相比之下，训练 CNN 或 RNN 需要几十万或上百万次观测。

而且，模式识别是无监督的，可以随着输入变化即时识别和归纳模式变化。这样得到的系统不仅训练速度相当快，而且可以自学习和自适应，不会受数据变化或噪音干扰。

我们在二月份发表的一篇文章中专门介绍了 HTM 和 Numenta，我们建议您阅读这篇文章了解更多内容。

部分值得注意的增量改进

我们开始关注真正的游戏规则改变者，但是，至少有两个增量改进的例子值得一提。显然，这两个例子仍是包含反向传播原理的 CNN 和 RNN，但它们的效果更好。

使用谷歌云 AutoML 进行网络修剪

谷歌和 Nvidia 研究人员使用一个名为网络修剪的过程删除对于输出没有直接贡献的神经元，让神经网络变得更小、运行更高效。这一进展是谷歌新平台 AutoML 近期主要的性能提升。

Transformer

Transformer 是一种新方法，最初用于语言处理，如语言到语言的翻译，这曾经是 CNN、RNN 和 LSTM 的领域。该方法是去年夏末由谷歌大脑和加拿大多伦多大学的研究人员发布的，它在包括英语 / 德语翻译测试在内的各种测试中都表现出了显著的准确性提升。

RNN 的时序特性使它比较难以充分利用像 GPU 这样的现代化快速计算设备，这些设备长于并行处理，而不是串行处理。CNN 的时序性比 RNN 差许多，但在 CNN 架构中，组合来自输入远端部分的信息所需要的步骤数量随距离增大而增多。

这一准确性的重大进展来自新开发的“自注意（self-attention）函数”。该函数显著减少了步骤，现在只需要很少的、数量固定的步骤。在每个步骤中，它运用一种自注意机制直接为句中所有词之间的关系建模，而不管它们的相对位置。

点击这里可以阅读研究论文原文。

https://papers.nips.cc/paper/7181-attention-is-all-you-need.pdf

总结

如果没有思考过，那么你应该关注下中国在 AI 领域的巨大投入及其在数年内赶超美国引领 AI 发展的目标。

Steve LeVine 是 Axios Future 的编辑，同时也是美国乔治城大学的教员。他在一篇文章中明确指出，中国可能是一个快速跟进者，但可能永远无法赶上来。因为，美国和加拿大的研究人员可以*变换研究方向，任何时候都可以根据自己的意愿重新开始。以制度为指南的中国研究人员永远不会那样做。以下内容来自 Steve 的文章：

“在中国，那不可想象，”位于西雅图的 Outreach.io 首席执行官 Manny Medina 这样说道。他还说，像 Facebook 的 Yann LeCun、加拿大多伦多 Vector 研究所的 Geoff Hinton 这样的 AI 明星，“他们不需要申请就可以开始研究，并深入下去。”

正如风投们所言，也许是时候转变了。

关于作者：Bill Vorhies 是数据科学中心的编辑部主任，从 2001 年开始就成为一名数据科学家。他的电子邮件地址是：Bill@DataScienceCentral.com。

码农公寓

相关文章