《连线》：AI 生成的文字将是最可怕的 Deepfake 内容

时间：2020-08-04 00:42:49

据《连线》(Wired)杂志报道，当评论家和研究人员试图猜测什么样的操纵活动可能会威胁到2018年和2020年的选举时，误导性的人工智能生成的视频往往名列榜首。虽然这项技术仍在兴起，但其被滥用的可能性是如此惊人，以至于科技公司和学术实验室优先研究并资助检测方法。社交平台为含有"合成和操纵媒体"的帖子制定了特殊政策，希望在保护自由表达和阻止大肆传播的谎言之间取得适当平衡。

但现在，距离11月3日还有3个月左右的时间，一波deepfake内容似乎从未断过。相反，另一种人工智能生成的媒体形式正在成为头条新闻，这种媒体更难被发现，却更有可能成为互联网上一股无孔不入的力量：deepfake文字。

《连线》称，上个月推出的GPT-3是生成式写作的下一个前沿：一个可以产生令人震惊的句子的AI。随着它的输出变得越来越难以与人类产生的文本区分开来，可以想象未来在互联网上看到的绝大多数书面内容都是由机器产生的。如果这种情况发生，它将如何改变我们对周围内容的反应方式？

这不会是第一个这样的媒体拐点。三十年前，当Photoshop、AfterEffects以及其他图像编辑和CGI工具开始出现时，这些工具对艺术创作的变革潜力--以及它们对我们对世界认知的影响--立即得到了认可。"AdobePhotoshop很容易成为出版史上最能改变生活的程序，"Macworld在2000年的一篇文章中宣布推出Photoshop6.0。"今天，艺术家们通过Photoshop对他们的作品进行修饰，而色情作品的制作者如果不对他们的每一张图像进行Photoshop处理，那么除了现实，他们将一无所获。"

人们开始接受这种技术的本质，并产生了健康的怀疑态度。今天，很少有人相信，杂志封面能展现模特的真实面貌。(事实上，吸引公众注意的往往是未经PS的内容。)

生成的媒体，如deepfake视频或GPT-3输出，则有所不同。如果被恶意使用，就没有未经修改的原件，没有可以制作的原始资料作为对比的依据，也没有可以作为查证事实的证据。在2000年代初，我们很容易剖析名人的前后照片，讨论后者是否造成不切实际的完美理想。在2020年，人们面对的是色情片上越来越似是而非的名人换脸，以及世界领导人说一些他们从未说过的话的片段。人们将不得不调整，并适应新的不现实程度。即使是社交媒体平台也认识到了这一区别；他们的deepfake造假节制政策区分了合成的媒体内容和仅仅是"修改"的媒体内容。

《连线》认为，无孔不入的生成文本有可能扭曲我们的社交传播生态系统。不过，要想对deepfake内容进行管理，必须知道它的存在。在现在存在的所有形式中，视频可能会变成最容易检测的形式。"软生物识别"，比如一个人的面部动作不对；耳环或一些牙齿的呈现效果很差。这些很多都可以通过软件的调整来克服。例如，在2018年的deepfake视频中，被试者的眨眼经常是错误的；但在这一发现公布后不久，这个问题就被修复了。生成的音频可能更微妙--没有视觉效果，所以犯错的机会更少--但有希望的研究工作也在进行中，以弄清这些问题。伪造者和鉴定者之间的战争将永远持续下去。

但是，合成文本--特别是现在正在生产的那种--代表了一个更具挑战性的前沿。它很容易大量产生，而且检测的次数也较少。Deepfake文字不像合成视频或音频那样，可以在敏感时刻使用。正如任何关注过激烈的Twitter标签的人可以证明的那样，活动家和营销人员都认识到主导所谓的"声音份额"的价值。看到很多人在同一时间或同一地点表达相同的观点，可以让观察者相信每个人都有某种感觉，不管说话的人是否真正有代表性，甚至是真实的。随着制作评论所需的时间和精力的下降，将有可能就任何可以想象的主题制作大量的人工智能生成的内容。事实上，人们有可能很快就会有算法阅读网络，形成"意见"，然后发布自己的回应。这些无边无际的新内容和评论的资料库，主要是由机器制造的，然后可能会被其他机器处理，导致一个反馈循环，这将大大改变我们的信息生态系统。

现在，可以检测到重复或回收的评论，这些评论使用相同的文本片段，以淹没评论区，游戏Twitter标签，或通过Facebook帖子说服观众。在过去的一系列操纵活动中都观察到了这种策略，包括针对美国政府就发薪日贷款和联邦通信委员会的网络中立性政策等话题征集公众意见的活动。《华尔街日报》对其中一些案例进行了分析，发现了数十万条可疑的评论，这些评论之所以被认定为可疑，是因为它们包含了重复的长句子，不太可能是由不同的人自发撰写的。如果这些评论是由人工智能独立生成的，比如说，这些操纵活动就很难被抽出来。

在未来，deepfake视频和音频很可能被用来创造独特的、耸人听闻的时刻，以占据新闻周期，或者转移其他更有机的丑闻的注意力。但不易察觉的deepfake文字--伪装成Twitter、Facebook、Reddit等网站上的常规聊天内容--则有可能更微妙、更普遍、更险恶。制造多数人意见的能力，或者创造一个虚假的参与者军备竞赛的能力--而被发现的可能性微乎其微--将使复杂的、广泛的影响活动成为可能。无孔不入的生成文本有可能扭曲社交传播生态系统：算法生成的内容会收到算法生成的回应，而这些回应又会反馈到以算法为媒介的策划系统中，这些系统会根据参与度浮现信息。

《连线》称，随着各种类型的合成媒体--文字、视频、照片和音频--的普及，以及检测变得越来越困难，人们会发现越来越难以信任自己看到的内容。