想象一下书籍的集合 - 也许数百万甚至数十亿美元 - 出版商将出版商扔进一个领域的堆积。每天堆都会呈指数级增长。

这些书籍充满了知识和答案。但是寻求者如何找到它们?缺乏组织,书籍是无用的。

这是其所有未过滤的荣耀中的原始互联网。这就是为什么我们大多数我们对“启蒙”在线的任务以谷歌开始(是的,还有其他搜索引擎)。谷歌的算法触手扫描和索引在不晕堆中的每本书。当有人在搜索栏中进入查询时,搜索算法通过其索引版本的Internet,曲面页面,并在顶部命中的排名列表中展示它们。

这种方法非常有用。事实上,它非常有用,二十多年来并没有从根本上改变。但现在,谷歌的AI研究人员首先将栏杆设置为搜索引擎的公司,正在勾画下一个可能会出现的蓝图。

在一个关于arXiv预印服务器的论文,该团队认为,让互联网更易于搜索的技术就在我们的指尖。他们说大型语言模型OpenAI的GPT-3等机器学习算法- 必须更换当今的索引系统,检索,然后排名。

是未来的搜索引擎吗?

作者写道,在寻求信息时,大多数人都喜欢向专家请教,并得到细致入微、值得信赖的回答。相反,他们会说谷歌。这可能会奏效,也可能会严重出错。就像凌晨两点你被吸进一个恐慌的健康兔子洞。

尽管搜索引擎会显示(希望是高质量的)包含至少部分答案的来源,但搜索者的负担是扫描、过滤和通读结果,以尽可能拼凑出答案。

这些年来,搜索结果有了飞跃式的改善。然而,这种方法远非完美。

有问答工具,如Alexa, Siri和谷歌Assistant。但这些工具是脆弱的,它们能回答的问题有限(虽然在不断增加)。尽管它们有自己的缺点(下面会详细介绍),但像GPT-3这样的大型语言模型要灵活得多,可以用自然语言构造对任何查询或提示的新颖回复。

谷歌团队认为,下一代搜索引擎可能会综合世界上最好的东西,将当今顶级的信息检索系统整合成大规模的人工智能。

值得注意的是机器学习已经在古典索引 - 检索 - 然后排名的搜索引擎中工作。但代替仅仅是增强系统,作者提出机器学习可能完全取代它。

“如果我们完全摆脱索引的概念,用一个大型的预先训练的模型取代它,能够高效、有效地编码语料库中包含的所有信息,会发生什么?”Donald Metzler和他的合著者在论文中写道。“如果检索和排名之间的区别消失了,取而代之的是单一的响应生成阶段,那会怎么样?”

他们设想的一个理想结果是有点像星际飞船进取号的计算机《星际迷航》。信息姿势问题的寻求者,系统答案会话 - 即,具有自然语言回复,因为您对专家的期望 - 并包括其答案的权威性引用。

在论文中,作者略了解他们称之为在实践中这种方法可能看起来像什么的抱负的例子。用户问:“红酒的健康益处是什么?”该系统以多个权威来源的清晰散文返回对散文的细微答案 - 在这种情况下,WebMD和Mayo诊所 - 突出饮用红酒的潜在福利和风险。

然而,它不需要结束。作者注意到,大型语言模型的另一个好处是他们能够在一点调整中学习许多任务(这被称为单次或几秒钟学习)。因此,他们可能能够执行所有相同的任务当前搜索引擎,以及数十个更好。

仍然只是一个愿景

今天,这种愿景遥不可及。大型语言模型是作者称之为“稀释剂”。

像GPT-3这样的算法可以产生几乎与人类所写的段落难以区分的散文,但它们仍然容易产生无意义的回复。更糟糕的是,他们不顾一切地反映了他们训练数据中的偏见,没有上下文理解的意识,并且不能引用来源(或者甚至分开高质量和低质量的来源)来证明他们的回答是正确的。

“他们被认为知道很多,但他们的知识是皮肤深刻的,”作者写道。本文还制定了弥合差距所需的突破。事实上,他们大纲的许多挑战适用于大型领域。

一个关键的进步将超越只建模术语(例如单个单词)之间关系的算法,发展到还建模文章(例如,文章整体)中单词之间关系的算法。此外,他们还会对互联网上许多不同文章之间的关系进行建模。

研究人员还需要定义什么是高质量的反应。这本身并非易事。但是,作者建议,高质量的回复应该是权威的、透明的、公正的、可获取的,并包含不同的观点。

即使是当今最先进的算法也无法接近这个酒吧。在自然语言模型被解决之前,以这种规模部署它们是不明智的。但如果问题得到解决——而且已经有工作要做了其中一些挑战搜索引擎不会是唯一受益的应用程序。

'早期灰,热'

这是一个诱人的景象。梳理网页寻找答案,同时试图确定哪些是值得信任的,哪些是不值得信任的,这可能会让人筋疲力尽。

毫无疑问,我们中的许多人都没有做好我们可以或应该做的工作。

但它也值得猜测如何访问的互联网,这将改变人们对其的贡献方式。

如果我们主要通过读取由算法合成的散文-Y响应来消耗信息 - 而不是打开和阅读个人页面本身 - 创造者会发布尽可能多的工作?谷歌和其他搜索引擎制造商将如何补偿创造者,他们本质上是制作训练算法本身的信息?

仍然会有很多人阅读新闻,在这种情况下,搜索算法将需要提供故事列表。但我想知道,如果一个微妙的转变可能会发生,更小的创造者添加更少,这样做,网络信息变得越来越少,削弱了依赖于该信息的非常算法。

没有办法知道。通常,猜测根植于今天的问题,事后证明是无辜的。与此同时,这项工作无疑将继续下去。

也许我们会解决这些挑战 - 更像他们的挑战 - 在这个过程中到达这一切,愉快地聊天《星际迷航》我们长久以来想象的电脑。

图像信用:JD X./Unsplash

Jason是Singularity Hub的总编辑。188金宝搏app1.1.94在转向科学技术之前,他做过金融和经济方面的研究和写作。他对几乎所有的事情都很好奇,可悲的是他只知道其中的一小部分。