阅读时间大约4分钟（1591字）

2017-09-11 为什么谷歌AI系统可以学贝多芬谱曲，却无法像郭德纲一样讲相声？

在整个生成原型领域中，未来的主要研究方向之一就是机器学习模型的学习架构。

【AI星球（微信ID：ai_xingqiu）】9月11日报道（编译：福尔摩望）

用AI来创作钢琴曲、绘画猫图，这些听起来可能不太像是谷歌会做的事情，但是这对Douglas Eck来说是非常有意义的。

Eck已经花了大约15年的时间研究AI和音乐，现在他也是谷歌Brain团队里的研究科学家，主导了谷歌的开源研究项目Magenta，该项目旨在通过机器学习创作艺术和音乐。

在采访中，他谈论了谷歌如何使用深度神经网络创作新的乐声，以及计算机无法讲笑话的原因。

使用AI来创作艺术并不是新鲜事，那么谷歌的做法有什么不同呢？

我们正在探索这个非常具体的方向是否与深度神经网络、周期性神经网络或者其他机器学习类型有关。同时，我们也很努力地将艺术家和创意程序员、开源开发人员联系起来，所以我们将这个项目进行了开源。

大多数Magenta都与音乐有关。为什么AI能够帮助制作和优化音乐？

说实话，这只是我的偏好所决定的。我的整个研究生涯都围绕着音乐和音频。我认为Magenta的研究范围一直都是围绕着艺术——无论是讲故事、音乐、叙事还是图像，简单来说就是尝试理解如何将AI当作创意工具使用。但是你必须要从一个具体的方向突破。如果我们能够在创作复杂音乐上取得进展，那么就可以将这一模式推广到其他领域。

我们可以听到一些由Magenta创作的音乐吗？

这里是Performance RNN原型生成的一段音乐。

仔细听一听这段音乐。这不仅是一段音乐作品，同时也是一段音乐表演。该原型不仅仅会生成4音符，也会决定乐曲的播放速度、声音大小。实际上，原型所接受的训练是钢琴比赛中的部分钢琴演奏。

正如作品所显示，Magenta创作的音乐基本上属于即兴演奏。那么AI可以创作具有连贯音乐结构的音乐吗？

我们正在努力。对我们而言，在整个生成原型领域中，未来的主要研究方向之一就是机器学习模型的学习架构。

我们不仅可以让它学习和弦的符号变化，也可以让它学习如何在内容里利用和弦变化。我们甚至可以有一个单独到模型来生成和弦变化。我们的目标是生成这种端对端的模型，以自己的方式计算出所有的层次结构。

说一说Sketch-RNN吧，听说它根据你的草稿用多种风格进行绘画。

我们可以获取到人们在玩Pictionary时的一些数据，这些数据都是来自于谷歌创意实验室的AI绘画实验。当然，这些数据是有限制的。你只能从短短的20秒绘画中获取一些相关数据。但是，我认为Sketch-RNN的负责人David Ha的工作真的很不错。他训练了一个周期性神经网络来学习如何复制这些绘画。他强迫模型学习什么是重要的部分。模型没有强大到能够记住整个绘图。因为它不能记住它看到的所有笔画，它的工作只是复制猫的图像。它被强迫学习猫图像中的重点，也就是这些数百万张猫图像的共同点。所以当你玩这个模型时，你可以要求它凭空生成一只猫。当然，这些生成的猫图像看上去像不知道如何画猫的人画出来的。

我了解到你正在尝试让计算机讲笑话。计算机可以生成什么样的笑话？

这个项目令我们产生了一个原始的问题：我们是如何理解笑话中的包袱的？我们之所以能够理解笑话，是因为能够理解笑话中的双关语。其实所谓的双关语也只是普通的词句而已。只是你的大脑能够通过这些词句联想到其他东西。这是一种被迫进行的回溯。所以，我们想要研究一些特殊的机器学习模型，它能够产生被称为真实向量的东西，能够理解一个句子的语义。

是啊。但是你必须了解很多单词和语言才能够理解。

是的，你必须知道很多。这个模型不仅没有说出任何笑话，它所说的内容我们也无法理解。

那你现在想要通过Magenta研究什么呢？

我尝试理解音乐的长期结构，并希望能够获得来自观众的反馈。

这将艺术过程看成是一种迭代。甲壳虫乐队拥有12张专辑，每张专辑都是不一样的。这是因为他们不断的从同僚或者观众中获得反馈，并根据反馈进行改变。他们所做的事情真正的与文化连接在一起。艺术家并不是静态不动的。

同样，我们也期望模型能够从反馈中学习。当它们了解到好的反馈时，会使用强化学习来设置对应的参数。

当我在听Magenta创作的音乐时，我在想：如果你可以使用数据来训练人工智能，那么AI可以进行原创吗？还是只能根据训练的数据进行再创作？

我想这要取决于我们原本的意图。我认为机器学习算法不大可能会具有独立性，产生一些具有变革性的艺术方式。但是利用这种技术的人可能会。何况，我们离AI创造真实世界的那一天还有很远的距离。AI现在所做的事情也许不是复制数据集，但也只是将多个数据集混杂在一起而已。