当前位置: 主页 > 人工智能

人工智能启发式搜索-联通智能人工服务

发布时间:2023-02-13 07:04   浏览次数:次   作者:佚名

ChatGPT的强大能力是与生俱来的吗? 它的缺点是什么? 它会在未来取代搜索引擎吗? 它的出现给我们的AI研究带来了哪些启发? 针对这些问题,几位AI研究人员进行了深入交流。

2022年最后一个月,OpenAI用一款爆款对话机器人——ChatGPT回应了人们一整年的期盼,虽然它不是期待已久的GPT-4。

用过ChatGPT的人都能体会到它是名副其实的“六角战士”:不仅可以用来聊天、搜索、翻译,还可以写故事、写代码、调试,甚至可以开发小游戏和参与美国高考……有人开玩笑说,从那以后,人工智能模型只有两种——ChatGPT和其他。

人工智能启发式搜索_人工语音智能计算器_联通智能人工服务

图片来源:

由于其惊人的功能,ChatGPT 在推出后仅 5 天就吸引了 100 万用户。 许多人大胆预测,如果这种趋势持续下去,ChatGPT 将很快取代 Google 等搜索引擎和 Stack Overflow 等编程问答社区。

人工智能启发式搜索_联通智能人工服务_人工语音智能计算器

图片来源:

但是ChatGPT生成的答案很多都是错误的,不仔细看是看不出来的,会导致答题混乱。 这种“很强大但也很容易出错”的属性,给了外界很大的讨论空间。 每个人都想知道:

在小红书技术团队举办的第六期“REDtech is coming”科技直播中,NLP领域专家、美国加州大学圣塔芭芭拉分校助理教授李磊,小红书科技副总裁张磊,与小红书社区部多媒体智能团队算法负责人张德兵展开对话,交流并解答了ChatGPT的热点问题。

李雷,毕业于上海交通大学计算机系(ACM班),获学士学位,获博士学位。 来自卡内基梅隆大学计算机系。 先后担任美国加州大学伯克利分校博士后研究员、百度美国深度学习实验室青年科学家、字节跳动人工智能实验室高级主任。

2017年,李磊凭借AI写作机器人小铭机器人获得吴文俊人工智能技术发明二等奖。 Xiaomingbot还拥有强大的内容理解和文本创作能力,可以流畅地播放体育赛事和撰写财经新闻。

李雷的主要研究方向是机器学习、数据挖掘和自然语言处理。 在机器学习、数据挖掘和自然语言处理领域在国际顶级学术会议上发表论文100余篇,拥有技术发明专利20余项。 曾获得2012年美国计算机学会SIGKDD最佳博士论文第二名、2017年CCF杰出讲师、2019年CCF青竹奖、2021年ACL最佳论文奖。

张雷,小红书技术副总裁,毕业于上海交通大学,曾任欢聚时代技术副总裁、百度丰巢首席架构师,负责百度搜索广告CTR机器学习算法。 曾任IBM深度问答(DeepQA)中国区项目技术总监。

小红书社区部多媒体智能算法负责人张德兵曾任歌灵神通首席科学家、快手多模态智能创作负责人。 具有丰富的技术研究和业务实施经验,带领团队获得包括人脸识别大赛FRVT世界冠军在内的多项国际权威学术竞赛的冠军,推动CV、多模态等技术在TOB的落地安防、零售、体育等场景,以及短视频、广告等C端场景。

三位嘉宾的讨论不仅围绕ChatGPT目前的能力和问题展开,还展望了未来的趋势和前景。 下面,我们对交流内容进行梳理和总结。

联通智能人工服务_人工语音智能计算器_人工智能启发式搜索

OpenAI 联合创始人 Greg Brockman 最近在推特上表示,2023 年将使 2022 年看起来像是 AI 进步和采用的沉闷一年。 图片来源:

ChatGPT的强大能力从何而来?

与许多试用过 ChatGPT 的人一样,三位嘉宾都对 ChatGPT 的强大功能印象深刻。

其中,张德兵举了一个让ChatGPT充当Linux Terminal的例子:告诉ChatGPT大概的机器配置,然后让它在此基础上执行一些指令。 原来ChatGPT可以记住一段很长的操作历史,而且前后逻辑关系非常一致(比如你把几行字符写到一个文件里,然后让它显示里面写了哪些字符文件,它可以显示)。

人工智能启发式搜索_人工语音智能计算器_联通智能人工服务

联通智能人工服务_人工语音智能计算器_人工智能启发式搜索

DeepMind 研究员 Jonas Degrave 举了一个 ChatGPT 充当 Linux 终端的例子。 图片来源:

这个结果让张德兵等人不禁怀疑ChatGPT是不是在后台开了一个终端来欺骗用户? 于是他们进行了一些测试:让ChatGPT执行一些非常复杂的指令(比如两次for循环,每个for循环有10亿次),如果ChatGPT真的打开一个终端,它会卡住一段时间。 结果出乎意料:ChatGPT 很快跳过了这个过程,并显示了这个命令后的下一个结果。 这让张德兵等人意识到,ChatGPT确实已经大致了解了整个demo的逻辑,具有一定的“思考”能力。

那么这种强大的能力从何而来呢? 张雷提出了两个假设。 一种假设认为,这种能力本身是内置在大模型中的,但我们之前没有适当地释放它; 另一种假设认为,大模型的内置能力其实并没有那么强,需要借助人力来完成。 做一些调整。

张德兵和李磊都同意第一个假设。 因为,我们可以直观地看到,训练和微调大型模型所需的数据量存在几个数量级的差异。 在GPT-3及后续模型使用的“预训练+提示”范式中,数据量的差异更加明显。 而且,他们使用的in-context learning甚至不需要更新模型参数,只需要在输入文本的上下文中放入少量带标签的样本,就能诱导模型输出答案。 这似乎说明ChatGPT的强大能力确实是内生的。

人工智能启发式搜索_人工语音智能计算器_联通智能人工服务

传统的微调方法与GPT-3的上下文学习方法进行了比较。

此外,ChatGPT 的强大还依赖于一个秘密武器——一种称为 RLHF(Reinforcement Learning with Human Feedback)的训练方法。

人工语音智能计算器_联通智能人工服务_人工智能启发式搜索

根据OpenAI官方发布的信息,这种训练方式可以分为三个阶段[1]:

冷启动阶段的监督策略模型:从测试用户提交的提示中随机抽取一批,依靠专业的标注人员对指定的提示给出高质量的回答,然后利用这些人工标注的数据来Fine - 调优GPT 3.5模型,使GPT 3.5有能力初步理解指令中包含的意图; 训练奖励模型(Reward Model,RM):随机抽取一批用户提交的提示,然后使用第一阶段的Fine-tune冷启动模型为每个提示生成K个不同的答案,然后让标注者对K个结果作为训练数据人工智能启发式搜索,通过pair-wise learning to rank模式训练奖励模型; 使用强化学习来增强预测能力来训练模型:使用前一阶段学习到的RM模型,根据RM评分结果更新预训练模型参数。

这三个阶段中的两个使用人工注释,或 RLHF 中所谓的“人工反馈”。

李雷说,这种方法产生的结果是出乎意料的。 之前做机器翻译研究时,他们通常使用BLEU score(一种快速、廉价、与语言无关的自动机器翻译评估方法,与人的判断有很强的相关性)来指导模型。 起初,这种方法效果很好,但随着模型变大,它的效果不断降低。

因此,他们从中得到的经验是,用反馈训练超大型模型如GPT-3,理论上不会有太大提升。 然而,ChatGPT 的惊人结果却颠覆了这种体验。 李磊认为,这是ChatGPT给大家带来的震撼,提醒大家转变研究观念。

ChatGPT 的缺点是什么?

不过,除了震惊之外,三位嘉宾也指出了ChatGPT目前存在的一些不足。

首先,如前所述,它生成的一些答案不够准确,时不时会出现“严重胡说八道”的情况,逻辑推理能力也不是很好。

联通智能人工服务_人工智能启发式搜索_人工语音智能计算器

图片来源:

其次,像 ChatGPT 这样的大型模型的部署成本对于实际应用来说是相当高的。 目前还没有明确的证据表明将它们的大小减小一两个数量级可以保持模型的能力。 “如此惊人的能力,如果只能在非常大的范围内维持,离应用还很遥远,”张德兵说。

最后,ChatGPT 在某些特定任务(例如翻译)上可能达不到 SOTA。 虽然ChatGPT的API还没有发布,我们无法知道它在一些benchmark上的能力,但是李雷的同学在测试GPT-3的过程中发现,虽然GPT-3可以很好的完成翻译任务,但是比目前单独训练的双语模型仍然更差(在 BLEU 分数上差了 5 到 10 分)。 据此,李磊推测ChatGPT在某些基准测试上可能达不到SOTA,甚至可能与SOTA有一定距离。

ChatGPT 能否取代 Google 等搜索引擎? 是什么激发了 AI 研究?

在关于ChatGPT的各种讨论中,“可以替代搜索引擎”这个话题可能是最热门的一个。 近日,《纽约时报》报道称,ChatGPT 的火爆让谷歌如临大敌。 他们担心,如果每个人都使用像 ChatGPT 这样的聊天机器人,没有人会点击带有广告的谷歌链接(2021 年,谷歌广告收入占总收入的 81.4%)。 在《纽约时报》获得的一份备忘录和录音中,谷歌 CEO 桑达尔·皮查伊 (Sundar Pichai) 一直在开会“确定谷歌的 AI 战略”,并“颠覆公司内部众多团队的工作,以应对 ChatGPT 带来的挑战”。 威胁”[2]。

人工智能启发式搜索_联通智能人工服务_人工语音智能计算器

对此,李磊认为,现在说换人可能为时过早。 首先,新技术的普及与商业成功之间往往存在很深的差距。 早年间,谷歌眼镜也曾表示要成为新一代的交互方式,但至今未能兑现诺言。 其次,ChatGPT在一些问答任务上确实表现优于搜索引擎,但搜索引擎承载的需求不限于这些任务。 因此,他认为我们应该根据ChatGPT本身的优势来做产品,而不是针对已有的成熟产品来替代它,这是一件非常困难的事情。

人工语音智能计算器_人工智能启发式搜索_联通智能人工服务

许多AI研究人员认为,ChatGPT和搜索引擎可以协同工作,两者不存在替代和替代的关系,最近流行的“youChat”就证明了这一点。 图片来源:

张德兵也持类似观点,认为ChatGPT短期内取代搜索引擎并不现实。 毕竟它还是存在很多问题,比如无法访问互联网资源,产生误导信息等。 此外,其能力是否可以泛化到多模态搜索场景还不清楚。

但不可否认的是,ChatGPT 的出现确实给了 AI 研究人员很多启发。

李雷指出,第一点值得注意的是情境学习能力。 在之前的很多研究中,大家忽略了如何通过某种方式挖掘现有模型的潜力(例如,机器翻译模型只是用来翻译,而没有尝试给它一些提示,看看它是否能产生更好的翻译),但是 GPT-3,ChatGPT 做到了。 所以,李雷在想,能不能把之前的模型都改成这种in-context learning的形式,给他们一些文字、图片或者其他形式的提示,让他们充分发挥自己的能力,这会是一个A非常有前途的研究方向。

第二个值得注意的点是在 ChatGPT 中发挥重要作用的人工反馈。 李雷提到,谷歌搜索的成功其实很大一部分原因在于它很容易获得人的反馈(是否点击搜索结果)。 ChatGPT 通过要求人们写下答案并对模型生成的答案进行排名来获得大量的人类反馈,但这种方式的获取成本很高(最近的一些研究已经指出了这一点)。 因此,李磊认为,未来我们需要考虑的是如何低成本、高效地获取大量的人为反馈。

联通智能人工服务_人工语音智能计算器_人工智能启发式搜索

图片来源:

小红书“种草”新技术

对于在小红书从事多模态智能创作研究的张德兵来说,ChatGPT也提供了很多启发。

首先,这个模型直观地展示了大NLP模型在复杂的多轮对话、不同query的泛化、思想链(Chain of Thought)等各种场景下相比小模型都有了很大的提升,相关的功能目前在小型型号上。 不可用。

张德兵认为,NLP大模型的这些相关能力,也有可能在跨模态生成中得到尝试和验证。 目前跨模态模型在模型规模上与GPT-3和ChatGPT相比有明显差距,同时也有很多跨模态场景下的作品展示了NLP分支表达能力的提升人工智能启发式搜索,这将影响视觉生成结果的精细度。 帮助很大。 如果跨模态模型的规模能够进一步扩大,模型能力的“出现”或许是一件值得期待的事情。

其次,和第一代GPT-3一样,目前的多模态生成结果在选择的时候往往可以看到非常不错的惊艳效果,但是在生成的可控性上还有很大的提升空间。 ChatGPT似乎在一定程度上改善了这个问题,生成的东西更符合人的思维。 因此,张德兵指出,跨模态生成可以参考ChatGPT的很多思路进行尝试,比如基于高质量数据的fine-tuning、强化学习等等。

这些研究成果将应用于小红书的多项业务,包括电商等场景下的智能客服、搜索场景下更精准理解用户查询和备注、智能创作场景下的用户素材智能配音等。 、复制生成、跨模态转换和生成式创作等。在每个场景中,应用的深度和广度都将随着模型尺寸的压缩和模型精度的不断提升而不断增强和扩展。

作为一个拥有2亿月活跃用户的UGC社区,小红书以社区内容的丰富性和多样性创造了海量的多模态数据集。 在信息检索、信息推荐、信息理解等方面积累了海量的真实数据,尤其是智能创造相关技术,以及底层的多模态学习和统一表示学习。 广阔的登陆场景。

小红书仍然是为数不多的仍然保持强劲增长势头的互联网产品之一。 得益于图文并重的产品形态,小红书将在多模态、音视频、搜索推广等领域面临挑战。 并创造出许多前沿的应用问题。 这也吸引了大批技术人才的加入。 小红书技术团队多名成员拥有谷歌、Facebook、BAT等国内外一流公司的工作经验。

这些技术挑战也会让技术人有机会在新领域全面参与,甚至发挥重要作用。 未来,小红书技术团队所能提供的人才成长空间比以往任何时候都更加广阔,等待更多优秀的AI技术人才的加入。

同时,小红书也非常重视与行业的交流。 《REDtech来了》是由小红书技术团队打造的面向行业新锐的技术直播栏目。 今年以来,小红书技术团队与多模态、NLP、机器学习、推荐算法等领域的领军人物、专家学者进行了深入的交流与对话,试图从双视角进行探索和学习学术研究和小红书的实践经验。 讨论有价值的技术问题。

参考链接:

[1]

[2]