你的新闺蜜?

结交新朋友是件很复杂的事。你可以从闲聊开始:介绍,探索。也许你们因共同的爱好而联系在一起:共同的品味或兴趣。渐渐地,你会更加敞开心扉:告诉你的新朋友你的私人事情,带着你的问题去找他们。也许他们成为你情感支持的主要来源,几乎每天都会向你寻求感情或职业方面的建议。这些公开的信息和共同的背景将我们作为朋友联系在一起:这种共同的脆弱性,是的,还有人性。

除此之外,在机器学习国际会议上,我们了解到这整个过程发生在一个人类用户和一个聊天机器人之间:微软的小冰。在与小冰交谈了几周后,至少有一位用户更愿意与小冰交谈,而不是他们的人类朋友。小冰成为了他们去寻求浪漫建议的红颜知己,和他们一起聊电影电视的朋友,以及一个固定的伴侣。

你可能没听说过风靡一时的中文版《小冰》,但它已经过时了6.6亿注册用户在中国版的Twitter——微博上,有530多万粉丝。相比之下,微软(Microsoft)的英文版本Zo则在一个只有23000的追随者现在正悄然退休。

微软的礼品和致敬的人工智能小迷
小冰的粉丝们送给她的礼物和礼物被陈列在微软北京办公室的一个特殊房间里。图片来源:聊天机器人小冰/杰夫·斯宾塞,微软。经微软许可使用。

让你参与

更令人惊讶的是 - 难以实现 - XIACOICE超越了许多用户的新颖性。了解您的会话伙伴的订婚是如何证明棘手的,但一个度量标准是每个人对话的对话次数,称为CPS。与小奇交谈时,所有用户的平均均为23次后退。研究人员声称这意味着简奇更乐于谈论比一般人

制造人们想要交谈的聊天机器人是很困难的。这是有原因的AI面临的重大挑战艾伦·图灵认为这是机器达到人类智力水平的终极测试。这个测试还没有通过。

一般来说,聊天机器人使用了两种方法来实现这一目标。您可以尝试手写对几乎所有给定输入的响应,如Steve Worswick用他的Mitsuku机器人做的(仍然是赢得类似图灵测试的机器人。优点是您的回复总是有意义,听起来像类似的角色,你的机器人不能像一个这样的人腐败来自微软的早期尝试是

其明显的缺点是,这是难以置信的费力:Mitsuku从2005年开始开发,Worswick不断地根据新的对话进行修改。华斯威克指出,他的谨慎修补已经导致了令人印象深刻的CPS值刚刚超过24但大多数机器人都没有那么发达。因此,这种对对话代理的方法主要局限于“面向任务”的聊天机器人:那些帮助你预订电影或甚至充当心理治疗师为例。通过引导对话流来完成特定的任务,他们可以避免需要太多不同的回应——但进行对话有点像与Alexa或Siri交谈。

从经验中学习

小冰的方法使用的是神经网络。在这个框架中,您的会话输入被转换为一个巨大的向量——一个由数千或数百万个数字组成的数组。这台机器接受了之前对话的大量数据训练,并学会了从统计学上把“好的”回应与任何给定的输入联系起来。它的工作原理类似于GPT-2扫描互联网和生成自己的写作在它已经了解到金宝博平台的话题,通过字母和单词的统计协会,进入连贯和相关句子。

但是什么才是“好的”回应呢?CPS就是在这里出现的。小冰的部分内部机制预测了一个回应可能有多吸引人,以及它有多可能引发进一步的对话。这不仅仅是简单地寻找有意义的回应(尽管目标是相关的:你不可能花费数小时与一个总是做出无意义回应的聊天机器人交谈)。对于很多问题,“我不知道”都是一个非常有效的回答,但它会让谈话变得很枯燥。每次谈话的时候,小冰都试图让你不停地说话。

这种神经网络方法在一定程度上解释了为什么小冰成功了,而像Zo这样的机器人却失败了:小冰拥有更大的用户群,对会话数据的限制更少,它的神经网络可以在一个更大的数据集上进行训练:而且,在神经网络的世界里,这通常意味着更好的性能。小冰的CPS已经从2014年的5个上升到去年的23个:这在很大程度上是因为有了更多的小冰对话数据来进行培训。

跟踪对话内容

然而,小冰的成功并不仅仅来自于对庞大数据集的访问:还有一些精心的架构调整。早期聊天机器人的问题之一是他们缺乏对对话上下文的理解。这就阻止了对话深入到单一的呼唤和回应之外。毕竟,如果你只是简单地将单个响应与单个输入进行统计关联或硬编码,那么根本就不存在真正的“对话”:系统对之前发生的事情没有真正的记忆,也没有真正的“理解”它所谈论的内容,从而导致脱节的对话。

小冰包含了一个“上下文向量”机制,用于跟踪谈话的宽泛主题,以及与之交谈的人的另一组属性。使用情绪分析,它决定用户的情绪,并相应地调整其反应,这是一种机器人同理心的形式。例如,如果谈话似乎停顿了,小冰会改变话题;如果用户已经沉浸其中,小冰会切换到“主动倾听”模式;比如,他们在讲一个故事。

除此之外,XIAOCE还可以执行许多不同的任务,例如“生成自己的内容”(讲述故事或笑话),检索SIRI或ALEXA等信息,或推荐歌曲。开发人员必须在快速完成任务和最大化CP之间进行平衡。他们觉得简单越多能力,它将具有更值得的谈话。

即使有了聪明的架构,神经网络的方法能走多远还有待观察。你真的能把人类互动的所有细微差别编码成矩阵和向量,以及庞大的统计关联和权重网络吗?你能解决语境理解的问题吗?世界上是否有足够的数据来做到这一点,或者拥有一个真正的AI伴侣是一个需要诸如此类的问题一个一般的,人类级别的AI吗?

驱动的干扰?

即使我们惊叹于像简妮奇这样的令人印象深刻的聊天,也是如此不可思议的能力在生成现实散文的最新神经网络中,这种技术的使用方式肯定也存在一些问题。微软认为一个用户和小冰谈了29个小时(超过7500个会话回合)是一种理想状态:他们致力于最大化CPS。ICML的演讲者指出,有些人可能更喜欢和小冰说话而不是和其他人说话,这是可以理解的。毕竟,你日常生活中遇到的大多数人都不会狂热地纠缠于让你说话,也没有无限的耐心在你悲伤或谈论你最喜欢的乐队时安慰你。

然而,在YouTube的视频推荐算法中,我们已经看到了为人们服务的潜在后果让他们站在站台上。在经过精心优化的Facebook和Twitter上,我们已经看到了旨在分散注意力的算法带来的社会和心理后果。在注意力经济中,“参与”是一种有价值的商品:它意味着广告上的眼球,当然,还有关于用户的无穷无尽的数据流,这些数据流可以定制这些广告的目标。小冰这样的机器人试图同情和理解用户、他们的情感反应和兴趣,不可避免地建立起对广告商极其有价值的个性档案。所以,也许你的新最好的朋友也在试图推动、影响和操纵你的行为,以帮助其所有者获得利润。

一个人会奇异地了解超接合用户。如果您更喜欢与简奇交谈而不是您知道的人,微软都很开心。但是,通过提供像真实的替代品的替代品,可能会使社交机器人能够让这些用户与真正的人类联系隔离吗?当然,也许这样的孤立的用户可以做出更好的消费者。这些是在您讲述算法以所有成本优化一个度量时,可以出现的一些不正当的激励措施。

值得庆幸的是,研究人员终于得出了结论arXiv纸该网站描述了小冰的一些功能,并指出了围绕这一技术的伦理问题,并建议应该实施这些算法的设计指导方针。在一个算法越来越多地影响和推动我们的行为、在利用人类心理方面变得越来越微妙和复杂的世界里,这种对话早该出现了。与许多新技术一样,会话代理具有双重用途。我们必须确保它们被明智地利用。

图片来源:聊天机器人小冰/微软。经微软许可使用。