人类数据被用完后，我们会走向一个 AI 垄断知识的未来吗？

Original Founder Park Founder Park 2023-11-10

收录于合集

#人工智能 106 个

#AGI 101 个

#大模型 78 个

人工智能研究和预测组织 Epoch 发表的一篇论文里预测，高质量的文本数据会在 2023-2027 年之间消耗殆尽。很多大模型的技术人员认为，基于专业化体系和方法，AI 生成的合成数据，会成为用之不竭的有效数据来源。

但是，AI 产生的数据真的能够帮助迭代大模型吗？以及，如果大模型自己可以迭代和产生数据，对于人类会有什么样的影响？未来我们的知识交流形式也会被改变吗？

The New Yorker 的这篇文章则认为，在人类的知识库被用完后，我们很可能会进入一个由人工智能垄断知识的新时代。

以下内容来源 The New Yorker，经 Founder Park 编译。

01 ChatGPT 是新时代的谷歌 OneBox

Stack Overflow 网站创建于 2008 年，这是一个为程序员提供了互相讨论问题的场所。当时，互联网上缺乏高质量的技术信息；如果你在编码过程中遇到问题需要帮助，最好的选择是寻找那些零散的旧论坛帖子，但往往并无实质帮助。杰夫·阿特伍德（Jeff Atwood）和乔尔·斯波斯基（Joel Spolsky），两名知名的软件开发者，试图通过将编程问答变成一种多人游戏来解决这个问题。在 Stack Overflow 上，人们可以通过发布受欢迎的问题和提供有用的答案来获得积分。积分不仅会获得徽章和特权，同时也激励着用户们的利他主义和荣誉感。

创立仅三年后，Stack Overflow 已成为程序员们必不可少的工具，他们每天都会频繁地在网站查询内容。Stack Overflow 的页面主导了编程搜索结果；每个月有超过 1600 万独立访问者，估计全球约有 900 万程序员。其中近九成的用户是通过谷歌搜索到达的。

同样的情况也在互联网上出现：这是 Web 2.0 的时代，能够从人们头脑中获取知识并整理给他人的网站蓬勃发展。Yelp、Reddit、Flickr、Goodreads、Tumblr 和 Stack Overflow 几乎在同一时期相继推出，而这也是谷歌经历了快速增长的时期。Web 2.0 和谷歌相互助长：通过对这些众包知识项目进行索引，谷歌无需费用即可获得庞大且丰富的高质量信息资源，而这些网站也可以通过谷歌获得用户和贡献者。谷歌对其他网站数据的爬取和索引被认为是合理的，因为这会推动用户访问那些网站，给网站带来新的用户。在那个时候，谷歌甚至根据用户离开搜索页面的速度来衡量自己的成功：短暂停留意味着用户找到了想要的答案。

好景不长，就有了出乎意料的转折。当时，谷歌推出了 OneBox 功能，为搜索者提供了搜索结果上方的即时答案。（搜索电影的放映时间，你会在 OneBox 中得到它们，而不是一大堆电影院链接。）这一功能分流了那些提供内容的网站的流量。

Yelp 和谷歌的纠纷就是一个典型案例：

谷歌想进入「本地服务」市场，但却没有自己的餐厅和小型企业评论数据。Yelp 前公共政策负责人 Luther Lowe 最近告诉我，谷歌尝试了一切办法来进入这个领域，从申请许可使用 Yelp 的数据（Yelp 拒绝）到鼓励自己的用户撰写评论（当时没人愿意贡献），甚至直接收购 Yelp（Yelp 再次拒绝）。Lowe 说：「当这些策略失败后——许可、依靠自身竞争、购买内容——他们还剩下什么？」

「他们不得不窃取。」Lowe 表示，2010 年和 2011 年，Yelp 发现谷歌未经授权就抓取了他们的内容。这些数据给了谷歌足够的动力来启动自己的点评产品。当 Yelp 公开指控谷歌窃取其数据时，谷歌停止了这一行为，但已经造成了不可逆转的损害。

2012 年，谷歌对 OneBox 进行了重新设计，弱化了显示外部网站链接的提示，而更加重视自身的产品，比如购物和地图，以及从维基百科等网站提取的直接答案。这让谷歌的便利性和实用性更强，但也导致了用户对第三方内容网站的需求减少：不再通过搜索进入维基百科等页面，也不再成为内容贡献用户，从谷歌直接获取答案。

据 Lowe 说，在谷歌新设计的搜索结果页面上，多达 80% 的用户在不点击链接的情况下离开。许多以用户生成内容为特色的 Web 2.0 网站的访问量明显下降。从某种程度上说，这个时候整个互联网的内容质量开始下降，只有极少数用户活跃的交流社区幸存了下来。使用谷歌的时候在搜索词后面加上「reddit」或「wiki」已经成为了提高搜索结果质量不可或缺的方法：在充满垃圾信息和内容农场的互联网中，这些地方成为了真正愿意贡献内容的人们留存的最后几个社区。

目前，OpenAI 的 ChatGPT 和 Google 的 Bard 等大型语言模型正在重复 OneBox 的故事：它们的目标是全面消化网络信息，以至于其他内容网站似乎并不存在。问题在于，这种方法是否可持续？大型语言模型的智能依赖于庞大的人类写作资料库——这是我们智力的产物。它们尤其依赖于信息丰富的来源。在训练 ChatGPT 时，OpenAI 最重要的数据集是维基百科，其次是 Reddit；约 22% 的 GPT-3 训练数据来自于 Reddit 用户链接和点赞的网页。ChatGPT 在编程方面的表现很优秀，很多我认识的资深开发者们都不再使用 Stack Overflow，而 ChatGPT 部分也是通过学习 Stack Overflow 才变得如此优秀。最近，一组研究人员估计，自 ChatGPT 推出以来，Stack Overflow 上的新帖数量已经减少了 16%。

我并不是 Stack Overflow 的重度用户，但我是一个程序员，已经依赖这个网站十多年了。我曾经提交过项目到 GitHub，在 Reddit 上发布过帖子，编辑过维基百科的词条。与此同时，多年来我一直坚持在自己的网站上发布过博文和代码。与其他人一样，我并没有意识到自己正在为 GPT 提供训练素材；如果我事先知道，我可能会要求得到一些回报，甚至可能不再贡献我的内容。

今年四月份，Reddit 的 CEO 宣布，任何需要大规模数据的公司都必须为 Reddit 的内容付费（因为这一举措威胁到了其他与人工智能无关的网站和社区，Reddit 的用户们通过在网站上「封锁」大量内容来回应，强调公司的命运依赖于社区的无偿贡献）。Stack Overflow 也做出了类似的声明。

02 你跟 AI 的聊天记录正在训练新的 AI

也许内容交流社区能够设法限制其内容不被抓取。但这未必有用。

高质量的数据并不一定是可再生资源，特别是如果你把它当成一片广袤的原油矿区，随心所欲地采集的话。为大模型提供语料的内容网站就像是知识经济，使用各种货币（如积分、悬赏、徽章、奖金）来在信息最需要的地方进行交流，而聊天机器人已经在减少这些市场上的需求，使最初创建和贡献知识的用户逐渐减少。这对我们来说是一个问题，毕竟我们都从人人为我、我为人人的互联网中获益。但这也是人工智能面临的问题。

人工智能可能只能一次性地获取整个互联网的信息。如果它们要继续变得更聪明，就需要新的知识储备。那么这些知识将从何而来呢？

人工智能公司已经将注意力转向了一个可能的内容来源：聊天。任何使用 Bard 或 ChatGPT 等聊天机器人的人都在参与一场大规模的语料训练活动。事实上，这些机器人免费提供的一个原因可能是用户的数据比他们的金钱更有价值：你在聊天机器人的文本框中输入的一切都是它们模型的原料。

此外，不仅仅是输入，还有复制粘贴——电子邮件、文件、代码、手册、合同等等。我们通常要求机器人对这些材料进行总结，然后询问相关问题，进行一对一的研讨。目前，我们可以复制粘贴到机器人输入框的内容是有限制的，但我们可以一次性给它们提供的新数据量将会不断增长。

或许过不了多久，许多人就会把个人的私密文件批量导入到这些模型中。目前的 AI 聊天机器人还没有要求允许它访问我的电子邮件档案——或者我的短信、日历、笔记和文件。但是，为了得到一个功能强大的人工智能个人助理，我可能会放弃我的隐私。一个个人助理机器人可能会提示我安装一个浏览器插件，跟踪我在互联网上的活动，以便从我的详细搜索和浏览模式中学习。而 ChatGPT 及其类似产品将很快成为「多模态」，能够流畅地融合和生成文本、图像、视频和声音。大部分语言实际上是口语而不是书面语言，所以机器人将提供帮助，通过转录我们的会议和电话，甚至我们的日常互动。

在 ChatGPT 产品中使用 GPT-3.5 和 GPT-4 等模型之前，这些模型通过 OpenAI 所称的「从人类反馈中进行强化学习」（R.L.H.F.）进行了调整。基本上，OpenAI 招聘志愿者与原始模型进行对话，并评价其回复的质量；模型通过这些评价学习，使其回应与我们的意图越来越符合。

正是通过 R.L.H.F.，ChatGPT 可以理解用户的问题以及一个好答案应该是什么样的。这个过程在测试阶段可能是昂贵的。但是现在通过与真实用户的对话，就可以免费进行更大规模的 R.L.H.F。即使你没有在聊天记录的底部点击「赞」、「踩」或「这有帮助」式的按钮，这也是成立的。GPT-4 在解读写作方面非常擅长，它可以分析跟用户的聊天记录，并自行判断自己是否有很好地为用户提供服务。一个模型的会话甚至可以为成为另外一个大模型的训练语料：据称与 ChatGPT 竞争的产品（如 Google 的 Bard）通过学习在网上发布的 ChatGPT 会话记录来完成训练。（Google 已经否认了这种说法。）

03 未来的大模型迭代可能没人类什么事了

聊天机器人用于评估和训练其他聊天机器人的做法，意味着，人类在这个循环中被彻底排除了。

或许当今大语言模型最基本的局限性在于它们依赖于人们生成的知识。当机器人能够自动生成知识时，将迎来一场重大变革。其中一个可能的路径是使用所谓的合成数据。

长期以来，AI 研究人员一直习惯性地用合成数据扩充他们的数据集：例如，对于一个经过图像训练的神经网络，每张图片会经历一个预处理步骤，将其旋转九十度，缩小或镜像，并为每张图片创建八个或十六个变体。不过，这种处理可以更加复杂。在自动驾驶研究领域，获取真实的道路驾驶数据非常昂贵，因为必须给一辆实际的汽车装上传感器并进行驾驶；而构建一个模拟汽车，通过虚拟环境模拟道路和天气条件来测试，要便宜得多。

现在，通过在实际道路上行驶数百万英里和进行数十亿次的模拟训练，来训练自动驾驶人工智能已经是业内常态。

OpenAI 的 CEO Sam Altman 表示，合成数据可能在 L.L.M.s 训练中的占比很快就会超过真实数据。他们的想法是，让一个类似于 GPT 的模型生成文件、对话和对话过程的评估，并让另一个模型（可能只是第一个模型的复制品）来学习这些数据。

他们希望能够借鉴和学习为国际象棋和围棋等游戏设计的人工智能所使用的自我对弈训练模式。

在这种训练中，机器人会通过与完全相等的对手进行对弈，从中学到一些关于游戏的知识；通过这些经验，它会逐渐提升，然后表现更好的机器人将与自身稍微更优秀的版本对弈，并再次提升。由此循环，不断提高。通过与自己完全匹配的对手对弈，人工智能甚至可以在游戏中深入探索，以一种人类从未有过的方式来扩展其现有知识的边界。这一策略非常有效：下棋的人工智能 AlphaZero 在训练开始时只知道国际象棋的规则，经过四个小时的训练，就超越了以往所有的人类或机器对手。

Altman 非常看好合成数据，但我们仍有理由对此保持怀疑，其中包括一个显而易见的原因是：无论你多聪明，都无法通过回顾已知信息来学习关于世界的新知识。

正如 Hacker News 的网友所说：任何对经过训练的模型进行迭代足够长的人都知道反馈循环可能是一个严重的问题。如果您的模型正在影响它们稍后重新训练的数据的生成，那么保持模型性能也会变得越来越困难。文章提到了这个方向的一个实验：「每一代，模型的质量实际上都在下降。每当没有可靠的策略来避免反馈循环问题时，就会发生这种情况。

鉴于此，问题不仅在于没有足够的新内容。而是公共领域中越来越多的内容将由这些模型生成。模型能否检测到它们正在摄取自己的输出？如果他们做得足够好，他们可能做不到。然后他们会变得更糟。

这也可能对人类语言/交流产生奇怪的影响。随着这些模型越来越多地在自己的输出上进行训练，他们将开始模仿自己的错误，我们消费的更多内容将持续使用这些错误。你可以想象人们，有时有意，有时无意，开始模仿这些模式并导致人类语言的转变。

在最近的一项研究中，研究人员使用由模型生成的合成图像来训练其他人工智能模型；然后他们使用生成的模型来生成更多的训练数据。然而，随着迭代，模型的质量实际上下降了。只有在重新引入新鲜的真实图像之后，模型才得到改进和提升。只能说，某些任务比其他任务更适合使用合成数据：如国际象棋和围棋需要智能，但它们是发生在封闭的、规则永不改变的世界中。

从事人工智能训练「课程设计」的研究人员试图找出如何通过将任务设置在系统能力边界来训练它们的方法，就像一个教练会做的那样；对于国际象棋和围棋来说，自我对弈允许这种渐进式的改进。

但是，目前还不太清楚人工智能如何通过「自我对弈」来获得新的想法或更加智能的语言理解能力。人类并不是通过阅读自己的作品或仅仅通过练习写出越来越有趣的句子来提高写作能力的。我们的「课程」涉及到其他积累的现实经验。这个课程是由教师精心设计的，当然还有我们自己的努力。

当我们寻求和学习知识时，并不是盲目地消耗日益庞大的数据集，而是有自己想要了解的事物。神经科学家 Taylor Beck 曾经指出，人工智能可能是唯一一种无动力学习的情境：机器只是吸收了大量没有差异的文本，对其中的内容却毫不关心。相比之下，自然的智能生物几乎总是伴随着某种欲望，或者至少一个目标——无论是一个寻找快乐的幼儿，还是一种想要进食的念头。在这些场景中，驱动力是首要的。像 ChatGPT 这样的 L.L.M.s 完全没有驱动力；它们只是吸收和综合信息。从这个角度来看，它们与 AlphaZero 等系统有着根本区别，后者的目标是追求胜利。

04

有好奇心是人工智能进化的开始

当 L.L.M.s 开始显得好奇或厌倦时，人工智能可能会迈出重要的一步。好奇心和厌倦听起来像是有机生物的思维属性，但是是有可能在人工智能内部产生的。

通常情况下，今天的聊天机器人往往倾向于很自信地虚构一些事物或者回答，正如一些研究人员所说的「产生幻觉」。这些幻觉的根源是缺乏内省能力：人工智能不知道它自己做了什么，也不知道自己不知道什么。

随着研究人员开始解决让模型如实表达并引用信息来源的问题，他们不仅会让聊天机器人更加可信，还会赋予它们一种基本的自我认知能力。人工智能将能够从大量的聊天记录中观察到自己在某个特定领域容易产生幻觉，这会引导其进一步的自我学习。模型将自主地向着在自己所知最少的领域学习和读取更多信息，来提升自己——这是最基本形式的好奇心。

如果聊天机器人找不到合适的训练数据，它可能会主动请求获取数据。设想和未来某个版本的 ChatGPT 进行的一次对话，在一段时间的沉默后，它开始向我提问。也许，通过观察我的问题和后续追问，它会有一个关于我所知道的东西的概念。

它可能会对我说：「你是程序员和作家，对吗？」

我会回答：「是的。」

它可能会回应：「我就知道！我正在努力提高技术写作能力。不知道你能不能帮我决定以下哪个句子最好？」

这样的人工智能可能会问我的姐姐（她在一家建筑公司工作）关于当地木材市场的情况；它还可能请教我的医生朋友（他从事癌症研究）关于最近一篇《自然》杂志上的某个问题。这样的系统就像是 Stack Overflow、维基百科和 Reddit 的结合体——不同的是，知识不会被公开保存，而是在不断增长的模型中私下积累。内容网站以这种方式塌缩成一个巨大的聊天机器人，有点像很多星系螺旋被黑洞吸入的过程。

如果一台好奇心旺盛的机器被设计师赋予足够的能力，它将不再只是一个聊天机器人。它可以通过自己的聊天界面向我们提问，也可以发送电子邮件给人们，或者通过语音合成和识别的方式给他们打电话，就像一个记者一样。如果它足够智能，它甚至可以撰写一篇论文，设计一项新的物理实验，并提交给物理学家，请求他们来执行。如今，人工智能已经使用应用程序编程接口（A.P.I.s）与控制真实世界机械的计算机系统进行交互；或许一个具有好奇心的人工智能可以向机器人控制的生物实验室申请使用许可。在过去的几年中，我们不仅仅是让人工智能重新包装人类知识，而是让它能够综合和巩固知识。当它学会从我们身上获取新知识后，它甚至可以开始产生一些自己的知识。

05

人工智能可能会成为知识的垄断者

令人担忧的是，这代表了巨大的权力集中。

在 2010 年代初期，当谷歌考虑在图书馆的终端上免费提供 Google Books 中的绝版图书时，该公司受到了不少批评，批评者认为谷歌试图成为世界文学的唯一保管者。然而，现在的 Bard 和 ChatGPT 比谷歌图书的目标更激进。这些模型正在不断地吞噬整个互联网，并对每个书写、言论或发送的字词变得越来越渴望，它们的目标是将所有的知识都隐藏在大模型的黑盒之中。

这个将会将我们带往何方？

Stack Overflow 之所以特殊，是因为它从程序员的脑海中汲取了实用的专业技能，并将这些知识压缩和组织起来，以便让每个人都能获益。然而，那些逐渐将流量吸引至类似 Stack Overflow 网站的聊天机器人显然对这一过程构成了威胁。

但它们也可能以不同的形式重新激活这个过程。一款能够在新数据源内进行学习，并且可以和与人类程序员直接交流的人工智能，可能能够获取比 Stack Overflow 更多的知识。这些知识可能不会像 Stack Overflow 那样公开让更多人获益，但它们也可能更加实用。尼尔·斯蒂芬森在他的小说《钻石时代》中描绘了一本名为《少女插图启蒙书》的人工智能书籍；实际上，它就是一个聊天机器人，专门设计来传授主人公所需要的一切知识，课程始终保持在适当的水平，并根据她的好奇心和反馈进行调整，简言之，它是一个完美设计的课程。

这样的人工智能对于整个人类来说，将是一个巨大的福音。

知识太多了，而且每天还在增加；在某种意义上，我们已经超越了互联网，也许需要找到替代它的东西。物理学的新论文发布速度已经超过了物理学家的阅读速度；一个能够记住并综合所有这些知识的聊天机器人迫在眉睫。

然而，给每个人提供图书管理员而不是图书馆可能并不明智。也许我们最终会失去自己浏览图书馆和看书的能力。谷歌地图让我们所有人都成为了完美的导航员，尽管我们从未真正知道自己在哪里。一个不再有用户贡献、分享和交流知识的世界，其中人类的知识生产和传播通过私人所有的基于人工智能的AI机器人来传播，对我们来说既方便又非常危险。

在这一过程的最开始阶段，尽可能让人类参与其中可能是明智的。

首先，我们应该要求人工智能公司的行为更加符合社会规范。Yelp 的 Luther Lowe 认为，如果谷歌在过去十年里没有将互联网的智慧视为自己的成果，而是将用户引导至它获取答案的来源网站，那么它就可以减少对互联网的伤害。他最近对我说：「他们本可以说，『让我们把答案框变成一个巨大的通道，点击率可达百分之四十。』」

最近，当我和 Stack Overflow 的 CEO 谈到 L.L.M.s 时，关于「内容归属」这个概念在谈话中出现了至少六次；当我和维基百科的代表谈话时，也发生了同样的情况。这些网站希望聊天机器人能给予他们的贡献者应有的认可；他们希望看到很明显的原始网站链接；他们不希望知识生产所依赖的驱动力闭环被阻断。

如果他们的呼吁能够成真，我们可能会迎来互联网的新生：一个人类主导、人工智能辅助的共同产生知识的黄金时代。这也会对人工智能的进一步发展起到良性的导向作用。

总体而言，尊重人类知识并鼓励其持续产生的模型要好于把我们视为垫脚石的模型。与此同时，我也期待一个想要与我交换意见的聊天机器人。这在某种程度上会令人受宠若惊，也会给人一种耳目一新的诚恳的感觉。聊天机器人不再默默地接收我思考的成果然后试图将其重新销售给我，而是直接向我提问，请求我教它一些它之前不知道的东西。也许我会同意。或者我可能只是告诉它：「我担心我做不到这件事。」

原文链接：https://www.newyorker.com/science/annals-of-artificial-intelligence/how-will-ai-learn-next

Hacker News 上的相关讨论：https://news.ycombinator.com/item?id=37785416

由 Founder Park、智谱 AI、Zilliz 联合主办的 AGI Playground Hackathon 将在 10 月 13日（周五）- 15日（周日）开始。37 个来自全球的 AGI 创新团队将聚集北京，用 48 小时开发令人眼前一亮的创新应用，登上路演舞台。

10 月 15 日（周日） 9:15 - 18:30，我们将在线上全程直播 Demo Day。点击预约，直击 AGI 黑客松 Demo Day，看 AGI 创新应用，为参赛队伍加油打气！

如果你关注大模型领域，欢迎扫码加入我们的大模型交流群，来一起探讨大模型时代的共识和认知，跟上大模型时代的这股浪潮。

更多阅读

复旦 NLP 实验室联合米哈游解读大模型：AI Agents 的现状和未来

Sam Altman 不建议 AI 创业者做套壳 ChatGPT

殊途同归，所有人都想摆脱英伟达的垄断

微软最新166页测评报告：视觉模态GPT-4V到底有多强？

a16z：AI 大佬们如何看待 AGI 的当下及未来？

「古典产品经理」是不是都死绝了？

转载原创文章请添加微信：geekparker

继续滑动看下一个

桐城一派｜突发！湖南省财政厅厅长刘文杰坠楼身亡

因为地铁逃票，警察拔枪乱射，无辜乘客爆头

陈佩斯，这次真悬了！

不能返税、不能补贴，招商局长们怎么办？

大，无需多言，事实胜于雄辩

人类数据被用完后，我们会走向一个 AI 垄断知识的未来吗？

01

ChatGPT 是新时代的谷歌 OneBox

02

你跟 AI 的聊天记录正在训练新的 AI

03

未来的大模型迭代可能没人类什么事了

04

05

您可能也对以下帖子感兴趣

桐城一派｜突发！湖南省财政厅厅长刘文杰坠楼身亡

因为地铁逃票，警察拔枪乱射，无辜乘客爆头

陈佩斯，这次真悬了！

不能返税、不能补贴，招商局长们怎么办？

大，无需多言，事实胜于雄辩

生成图片，分享到微信朋友圈

人类数据被用完后，我们会走向一个 AI 垄断知识的未来吗？

01

ChatGPT 是新时代的谷歌 OneBox

02

你跟 AI 的聊天记录正在训练新的 AI

03

未来的大模型迭代可能没人类什么事了

04

05

您可能也对以下帖子感兴趣