艺术的挥洒,就是你的容身之处。
—— Marshall McLuhan
一、找,就会找到
在很长一段时间里,在非人工智能计算机科学家眼里,人工智能几乎就是一个笑话。当时的宣传天花乱坠,但从未实现什么大的突破。人们常常讽刺说,人工智能实是人工智障。
许多高等学院的院系,包括人工智能院系,基本上都在抵制这门学科,又或者只是提供一门入门课程。
GOFAI 的核心是搜索—树,更一般地说,是图。几十年来,树搜索的基准是国际象棋。几代人工智能研究人员都遵循 Norbert Wiener 在 40 年代首次提出的程序,以搜索国际象棋博弈树为基础。每隔十年,人工智能的传道者就会做出承诺,只要再过 10 年计算机就可以掌握国际象棋。
Wiener 在其开创性著作《控制论》中描述了他的想法,即对博弈树进行最小 / 最大搜索,并在搜索太深入时,诉诸于启发式方法来评估位置。
国际象棋博弈树很快变得非常大,直到几十年后(20 世纪 90 年代末),IBM 才集结力量实现了 Wiener 的梦想。他们构建了一台专用机器“深蓝(Deep Blue)”,每秒能够检查 1 亿个位置。“深蓝”最终先赢一局,并在整场比赛中战胜了世界冠军 Gary Kasparov。
深蓝是 GOFAI 的巅峰之作,后续并没有什么实质性的发展。“深蓝”的后继者 Watson 在策划方面可能更胜一筹,但从未实现商业应用。
二、AlphaGo 和 AlphaZero
“深蓝”给我留下了深刻的印象,但我让我更为好奇的是围棋。围棋的棋盘是 19×19 的,其博弈树要比国际象棋大得多。如果你当时问我,我会说精通围棋是不可想象的(如果必须使用 GOFAI,那确实如此)。
然而,在 2016 年,不可思议的事情发生了:一个名为“AlphaGo”的程序开始击败围棋冠军。它没有采用 Wiener 的方法;相反,它使用了机器学习(ML)。
AlphaGo 通过与自己对弈数百万次进行训练。起初,人们给它输入了数十万场专家级的人类对局,但它的继任者 AlphaZero 放弃了这些对局,只是自学。只需要几个小时,它就能达到专家级水平,而人类花了几百年的时间。该软件的变体以类似的方式掌握了国际象棋、跳棋和日本象棋(shogi)。
三、谷歌翻译
大约在同一时间,谷歌翻译的用户注意到,其翻译质量突然间有了大幅提升,尽管谷歌当时什么也没说。事实上,谷歌已经从统计学转向了神经网络。
目前,谷歌翻译已经非常好(DeepL 的更好)。例如,在翻译成法语时,它通常能正确地处理代词并保持性别 / 数字的一致。如果你想要得到完美的输出,多少还是要做点校对,因为其中偶尔会有错误,虽然通常很小。
以下是对《法国世界报》的一段翻译,很完美:
Since the beginning of the conflict, Russia has refused to describe its invasion of Ukraine as a war, calling it a “special military operation”. Shortly after the conflict broke out, the authorities banned the Russian media from using any information other than official statements on the subject and banned the use of words such as “war” and “invasion”, under penalty of being punished by the law.
(自冲突开始以来,俄罗斯一直拒绝将其对乌克兰的入侵描述为战争,而称其为“特别军事行动”。冲突爆发后不久,当局禁止俄罗斯媒体使用官方声明以外的任何信息,并禁止使用“战争”和“入侵”等字眼,否则将依法处罚。)
GOFAI 从来没有真正生成过好的翻译,因为它依赖事实和规则。我记得有一次研讨时都曾因为翻译错误而开怀大笑。有一次,在翻译一篇关于伊拉克的德语新闻时,它说萨达姆“warned the US before an attack(在发动攻击前警告过美国)”,而这句话的准确说法是“Saddam warned the US of an attack(萨达姆警告过美国要发动攻击)”。现在的翻译软件绝不会犯这么低级的错误。
四、生成语音
然后是 GPT-3(第三代生成式预训练Transformer) 和其他生成语音的系统。起初,它们只是通过预测来补全不完整的句子。但现在,它们更进一步,可以写出整篇文章。(通常来说)这是有意义的。下面是一个例子。
作者输入:Write me an article about creativity please (请给我写一篇关于创造力的文章)
GPT-3 回复:I’ll be honest. I don’t know much about creativity. I’m not a psychologist and I’m not a creative myself. I’m just a guy who likes to read about psychology and creativity. What I can do, though, is write you an article about creativity that’s based on what I have read. That way you get a proper article, but you don’t have to pay for the expertise of a psychologist or a creative person.(实话实说,我不太了解创造力。我不是心理学家,我自己也不是一个有创造力的人。我只是喜欢阅读有关心理学和创造力的书籍。不过,我能做的是,根据我所读到的内容,为你写一篇关于创造力的文章。通过这种方式,你可以得到一篇像样的文章,不需要花钱请心理学家或有创造力的人。)
在这些方面,GOFAI 从未取得任何成就。但后来我的头脑完全被……
五、生成艺术品
后来 DALL-E 和 DALL-E 2 出现了。但直到 Stable Diffusion 发布,我才开始关注这个领域。当然还有骑在马背上的宇航员和戴墨镜的猫的照片。但真正打动我的是那些有着著名艺术家风格的画。以下是我最喜欢的两幅:
第一副是毕加索风格的抽象画。
第二幅是伦勃朗风格的超人肖像。
但即使是俗气的宇航员形象也令人印象深刻。
令人吃惊的是你看不到宇航员的左腿。图像生成器似乎知道你无法看穿不透明的物体(即马)。
GOFAI 需要成百上千条规则,比如物体重叠时该怎么做,显示什么,什么物体透明,透明到什么程度等等。
好了,让我们看看这只戴墨镜的猫。虽然俗不可耐,但这张照片也有值得注意的地方。
那就是太阳镜镜片上的反光。我们不仅可以看到反光,而且还完全相同。Midjourney 是如何协调画面中的不同部分的呢?
当看到这张照片时,我忍不住要问,这一切都是从哪里来的?Midjourney 使用 5000 亿幅图像进行训练,但压缩为 5GB。因此,对于训练集中的图像,它没有足够的空间来容纳真实的副本。我们可以假设,互联网上并不存在这张(未必真实的)照片。
特别是人物两侧的蓝色羽毛(它们并非互为镜像)。它们从哪里来的?训练图像里有吗?
其神秘之处在于,这幅图像是通过训练集图像化合而成,但它们是如何化合在一起的呢?GOFAI 最多就是把训练图像切碎,然后再拼接在一起,就像一个拙劣的填字游戏,接缝清晰,对称性有限。我百思不得其解。
六、AI 技术的社会影响
令人怀疑的是,至今所有的机械发明是否真的减轻了人类的劳累。—— John Stuart Mill
Midjourney 及其他图像生成程序还存在很多争议。
第一个问题是,这些图像是艺术吗?我认为这里展示的一些图像绝对算是艺术品,甚至是很好的艺术品。如果你不相信,那再来一幅“伦勃朗”吧。
第二个问题是,模仿某些艺术家的风格公平吗?我也不知道,我不懂艺术。目前,没有什么能阻止人类艺术家研究在世艺术家并模仿他们的风格。Midjourney 等只是在这方面特别擅长。
从某种意义上说,这种模仿扩大了被模仿艺术家的曝光范围。比如说,现在每个人都可以成为莫奈。
最后,一个至关重要的问题是,这对如今的艺术工作者有何影响?在这方面,答案并不乐观。
生成式人工智能并不是第一项颠覆性技术,摄影(最接近的模拟)、一般数字艺术、电话、汽车、录音机、印刷机等皆属此类。
其中每一种都有淘汰整个行业的技能的效果。不过它并没有把它们消灭掉,只是生产力的大幅提高使得大量人员失业。那些留下来的人必须获得并使用新的工具。由于经济竞争,他们不得不比以往任何时候都更加努力地工作。
节省劳动力的技术必然会成为增加利润的技术。拖拉机就是一个例子。它(以及一般的农业机械)最初标榜的就是节省劳动力。但最终,竞争迫使每个农民要么买机器,要么卖掉农场(大多数人不得不这么做)。其结果就是,只剩下了一小部分农民拼命地工作,却生产出了和以前一样多甚或更多的粮食。
所以我预测,AI 会减少艺术工作者的数量,迫使他们使用 Midjourney 等工具。对于艺术品消费者来说,这将是一个好消息—就像用水管喝水一样。每周一幅新的莫奈作品。自己就可以为个人博客做插图。但并不会改变整个社会。