人工智能技术原理-亚马逊智能仓库 人工
本文将以高度简化的方式使用“算法”一词来描述单个算法、模型或使用多种算法的软件。 在每个类别中,讨论数据输入的类型,作为黑盒的算法,以及输出(为简单起见,即使真正的算法不是黑盒,也暂时将其视为黑盒)。
因为这是一个高层次的概述,我鼓励您深入研究感兴趣的具体应用,并弄清楚它们如何应用于行业或商业活动。 还有许多资源可用于了解所涉及的技术细节和特定算法。
01 预测分析
预测是预测分析或预测建模的同义词,它是根据标记的(有时是未标记的)输入数据来判断输出数据的过程。 在机器学习和人工智能中,预测分析可以进一步细分为回归和分类。
下面讨论使用标记数据(监督)进行预测的两个子类。
1.退货
图 1-1 显示了将标记数据输入回归方法,通过预测模型对其进行处理,然后从连续序列(例如股票市场的收盘价)中生成值的过程。
▲图1-1:回归
应用包括客户生命周期股票价值和净利润、收入和增长预测、价格变化、信用违约风险和股票交易计算。
2.分类
分类是指将输入数据经过分类模型处理后,分为一类或多类的过程,如图1-2所示。
▲图1-2:分类
垃圾邮件过滤器是二进制分类应用程序的标准案例。 电子邮件是分类模型处理的输入数据,输出数据是垃圾邮件或非垃圾邮件,非垃圾邮件是指那些没有垃圾邮件内容的好邮件。 垃圾邮件被发送到垃圾箱,非垃圾邮件被发送到收件箱。
如果引入第三类“不确定”,分类器现在可以将输入邮件分为三类。 因为有两个以上的类,所以这是一个多元分类的例子。 在此示例中,电子邮件客户端可能有一个“可能是垃圾邮件”文件夹,供用户查看每封电子邮件并使用它来训练分类器以更好地区分垃圾邮件和非垃圾邮件。
如果要将输入数据分为三类或更多类,算法可以为输入数据选择一个类,或者计算输入数据属于每个类的概率。 对于后一种情况,可以使用概率最高的类别作为选择结果,也可以使用所有类别的概率按照自己自定义的规则进行处理。
在这种情况下,假设一封刚收到的电子邮件被确定为垃圾邮件的可能性为 85%,非垃圾邮件的可能性为 10%,不确定的可能性为 5%。 由于是垃圾邮件的概率最高,因此可以将消息判断为垃圾邮件,或者可以将计算出的概率用于其他方式。
最后,一些算法可以为同一个输入分配多个标签。 这里举一个与图像识别相关的例子,假设输入数据是一张红苹果的图像,那么算法可以为图像分配多个不同的标签,如红、苹果、水果。 对于这种情况,将图像分配给所有三个类别是合适的。
应用包括信用风险、贷款审批和客户流失。 分类可以与本文后面讨论的识别应用相结合。
02 个性化与推荐系统
推荐系统是一种个性化形式,它使用现有信息来提出与个人用户高度相关的推荐。 它可用于提高客户转化率、销售额、满意度和保留率。 事实上,仅通过添加这些引擎,亚马逊就增加了 35% 的收入,而 Netflix 75% 的观看量来自此类推荐。
推荐系统是一种特殊的信息过滤系统。 个性化也可以通过用户搜索、排名和评分来完成。 推荐系统根据产品或用户等输入数据,通过推荐模型或引擎的处理完成推荐(如产品、文章、音乐、电影),如图2所示。
▲图2:推荐系统
值得一提的是与推荐系统相关的“冷启动问题”。 冷启动意味着智能应用程序还没有足够的信息来为特定用户或群体做出高度个性化和相关的推荐。 例如,用户尚未生成有关其偏好、兴趣或购买历史的信息。
另一个例子是商品(例如衣服、产品、视频、歌曲)刚刚发布时。 有几种技术可以帮助解决这个问题,但由于篇幅限制,没有深入讨论。
推荐系统应用包括推荐产品、视频、音乐、歌曲、书籍和电视节目(例如亚马逊、Netflix、Spotify)。 除了推荐之外,这还包括个性化内容,包括新闻、报告、电子邮件和定向广告(例如 Twitter)。
其他示例包括个性化医疗计划、个性化图像和图标(例如 YouTube、Netflix、Yelp)、葡萄酒推荐、个性化购物(例如完美夹克)、时尚(例如 StitchFix)和全自动推荐。
03 计算机视觉
计算机视觉是一个广泛的领域,包括涉及图像和视频等视觉信息的模式识别(下一节将讨论另一种技术)。 计算机视觉将照片、静止视频图像和一系列图像(视频)作为输入,使用模型对其进行处理,并产生输出,如图 3 所示。
▲图3:计算机视觉
输出可以是对象、签名或活动的识别、检测和发现。 与视觉相关的应用意味着一定程度的自动化,尤其是自动化视觉通常需要人工参与应用(例如检查)。 术语机器视觉用于描述工业应用中相似或重叠的技术,例如检查、过程控制、测量和机器人技术。
计算机视觉有许多有趣而强大的应用,并且应用的数量正在迅速增加。 例如,计算机视觉可以用于以下场景:
无人驾驶飞行器 (UAV) 通常被称为无人机。 通过应用计算机视觉,无人机能够执行检查(例如石油管道、无线电塔)、完成建筑物和区域搜索、帮助绘制地图和交付。 计算机视觉现在广泛应用于警察、安全和监视领域。 当然,这样的应用也要注意符合伦理道德,保护人们的利益。
关于计算机视觉,还有最后一件事值得一提。 通过视觉、嗅觉、听觉、触觉和味觉五种感官,人类能够感知周围的环境和周围的世界。 感官捕捉信息,然后传递到神经系统,在那里进行转换,并决定应该采取什么行动或应该给出什么样的反应。 计算机视觉是对特定人工智能应用的视觉类比。
04 模式识别
模式识别涉及输入非结构化数据,用模型对其进行处理,检测特定模式的存在(检测),为识别的模式分配类别(分类),或发现识别模式的主题(识别),如图所示4-1。
▲图4-1:模式识别
这些应用程序的输入可以包括图像(包括视频——一系列静止图像)、音频(如语音、音乐和声音)和文本。 文本可以根据其特性进一步细分为电子的、手写的或打印的(例如纸质、支票、车牌号)。
使用图像作为输入的目的可能是检测对象、识别对象、发现对象或三者的组合。 人脸识别就是一个很好的例子。 一个模型被训练来检测图像中的人脸并对检测到的对象进行分类并将它们标记为人。 这是对象检测的示例,其中对象是无法识别的面孔。
“检测”用于指检测到与背景不同的对象。 它还包括对象位置的测量和检测到的对象周围的边界框的特定测量。 识别是对检测到的对象(在本例中为人脸)进行分类或标记的过程,它更进一步,为识别出的人脸分配身份。 图 4-2 给出了一些图像识别的例子。
▲图4-2:图像识别与检测
面部识别等生物识别技术可用于自动标记图片中的人物。 另一种形式的生物识别是基于指纹识别。
其他应用包括:
音频识别的应用包括:
最后,可以通过光学字符识别(OCR)和手写字符识别将手写或打印文本转换为电子文档。 文档也可以转换为语音,但这被认为更有可能是人工智能的生成应用,而不是识别应用。 生成应用程序将在本文后面讨论。
05 聚类与异常检测
如图 5 所示,聚类和异常检测是两种最常见的无监督机器学习技术。 它们也被认为是模式识别技术。
▲图5:聚类与异常检测
这两个过程都是将未标记的数据作为输入,经过相应的算法(聚类或异常检测)处理后,在聚类场景下完成分组,或者在异常检测场景下判断是否异常。 我们首先讨论聚类。
聚类将未标记数据中的相似数据分组。 组的确切数量由执行聚类任务的人(通常是数据科学家)确定。 没有正确或错误的组数,但通常可以通过反复试验来确定特定应用的理想组数。
由于数据未标记,因此聚类器必须为每个组分配一些含义或标签,以便清楚地描述(例如运动狂)。 然后使用该模型将新数据分配给一个组,从而假设该组的标签或描述。 将此过程视为某种形式的预测分类,其中每个新数据点都被分配一个类别(通过分组标签)。
将新的数据点(例如客户)分配给集群(细分)将为我们提供一种更好的方法来精确定位、个性化和战略性地定位产品,并以适当的方式定位每个细分市场。 向子市场中的客户进行营销。
聚类应用包括市场和客户的细分和关注、3D 医学图像分析、按购物习惯对产品进行分类以及社交媒体分析。
异常检测是一种用于检测数据中异常(非常异常、异常或畸形)模式的技术。 异常检测应用包括基于音频的缺陷和裂缝检测、网络安全、质量控制(例如,制造缺陷检测)以及计算机和网络系统健康(例如,NASA 的缺陷和错误检测)。
在网络安全的异常检测应用方面,常见的威胁包括恶意软件、勒索软件、计算机病毒、系统和内存攻击、拒绝服务 (DoS) 攻击、网络钓鱼、不需要的程序执行、凭据盗窃、数据传输和盗窃等。 这方面的异常检测场景不用多说。
06 自然语言
自然语言是人工智能发展和应用中一个非常有趣和令人兴奋的领域,通常分为三个子领域:自然语言处理(NLP)、自然语言生成(NLG)和自然语言理解(NLU)。 让我们分别讨论。
1. 自然语言处理
自然语言处理(Natural Language Processing,NLP)输入文本、语音或手写语言,经过NLP算法处理后输出结构化数据,如图6-1所示。 现在有很多潜在的 NLP 场景和输出。
▲图6-1:NLP
值得一提的是,有时 NLP 也被认为是 NLG 和 NLU 的超集,因此人工智能自然语言应用可以被认为是 NLP 的一种形式。 其他人将其视为我们正在谈论的自然语言应用程序的特定集合。
与 NLP 相关的具体任务和技术包括:
NLP 的一个具体应用涉及记录公司会议,将其翻译成文本,然后提供会议摘要人工智能技术原理,其中包括围绕不同主题和会议表现的分析()。
另一个应用程序使用 NLP 分析求职面试,并根据性别中立、语气和措辞等因素给出总体评分。 它还提供优化建议,以提高评级和整体职位描述。
其他应用包括:
现在有很多云服务商通过NLP服务和API接口提供这方面的一些功能。
2. NLG
NLG以结构化数据的形式输入语言,经过NLG算法处理后,生成相应的语言作为输出,如图6-2所示。 这种语言输出可以是文本或文本到语音的形式。 结构化输入数据的示例可以是有关运动员参加比赛的统计数据、广告效果数据或公司财务数据。
▲图6-2:NLG
应用包括:
Andrei Kapasi 创建的模型可以自动生成维基百科文章、婴儿名字、数学论文、计算机代码和莎士比亚的模型。 其他应用包括生成手写文本甚至编写笑话。
3.自然语言理解
最后,NLU将语言作为输入(文本、语音或手写),经过NLU算法处理后,产生可理解的语言作为输出,如图6-3所示。 由此产生的可理解语言可用于采取行动、生成响应、回答问题、进行对话等。
▲图6-3:NLU
重要的是要注意,“理解”这个词在本质上可能非常深奥和哲学,并且涉及洞察力的概念。 理解意思的能力通常不仅是理解信息(与死记硬背相反),而且是将理解的信息与现有知识相结合,并将其用作不断增长的知识库。
缺乏与人类相似的语言理解和理解能力是当今基于自然语言的人工智能应用的一大短板。 根本原因在于机器很难获得与人类相似的语言理解能力。 还记得之前关于人工智能现状和人工智能难题的讨论吗? 这是一个证明。
在不进行完整的哲学讨论的情况下,让我们只使用术语“理解”来表示算法(再次大大简化)能够使用输入语言做更多的事情,而不仅仅是解析它并执行简单的任务,如文本分析。 NLU要解决的问题显然比NLP和NLG(通用人工智能问题)难得多,而NLU是实现通用人工智能(AGI)的主要基础组成部分。
目前的 NLU 越来越好,已经出现了包括个人虚拟助理、聊天机器人、客户成功(支持和服务)代理、销售代理等在内的应用。这些应用通常包括某种形式的手写内容或口头对话,并且经常围绕信息收集、问题回答或某种辅助工具展开。
个人助理的具体例子包括亚马逊的 Alexa、苹果的 Siri、谷歌的 Assistant 和 Nuance 的 Nina。 聊天机器人的用例包括润滑油专家、求职面试官、学生贷款顾问和商业保险专家。 这是人工智能研究非常活跃、具有发展潜力的领域,绝对值得关注。
07 时间序列和基于序列的数据
在大多数情况下,数据是按顺序收集的,因此数据的顺序极其重要,由特定的指标决定。
最常见的数据序列索引是时间,按时间排序的数据称为时序数据。 每日交易时段的股票价格波动、DNA 序列、物联网传感器数据以及风向等科学现象都是时间序列的好例子。
时间序列分析和建模可用于学习、判断和预测基于时间的事件,包括趋势、季节变化、周期和噪声。
对于一些特定的应用,字母和单词的序列也是有效的序列数据,这些序列被标记了不同的标签,比如n-grams、skip-grams、句子、段落,甚至是语言本身,其中语言是基于语音的、文本或以电子方式表达。 另外,音频和视频也是序列数据。
应用包括:
08 信息搜索、提取、整理和打分
许多强大的 AI 应用程序围绕搜索、提取和排名(评分)信息展开。 对于文本文档、网页、图像和视频等非结构化和半结构化数据尤其如此。
此数据(有时辅以结构化数据)可用于提取信息、提供搜索或优化建议,以及按相关性、重要性或优先级对项目进行排名或评分。 这组技术中的大部分都与个性化相关,因为搜索结果和其他项目可以根据它们与用户或人群的相关性进行排列或排名。
目前很多搜索任务都是通过键盘输入或者语音的方式提供给谷歌等搜索引擎的,这就使用了谷歌独有的人工智能搜索算法。 电子商务应用程序也使用自己的引擎来搜索产品,搜索过程可以由文本、声音(语音)和视觉输入驱动。
文本搜索包括 Google 搜索、Microsoft 的 Bing 以及分布式、透明和社区驱动的搜索。
基于声音和图像的搜索应用程序包括:
视频搜索基于图像内容进行搜索。 购物应用程序长期以来一直采用这种方法。 用户将拍摄的照片提交给视频搜索引擎。 这些照片随后用于生成相似性搜索结果,例如衣服。 一些图像引擎还可以直观地显示类似的产品和推荐。
除了分类技术,还有排名和评分技术人工智能技术原理,包括这些应用:
09 强化学习
强化学习 (RL) 与目前为止所描述的 AI 技术非常不同(简要回顾一下上述人类学习方法)。 基本思想是让代理人在虚拟环境中行动以获得积极的回报。 每个动作都会导致环境状态发生变化,并且每个动作都由称为策略的模型确定。 策略试图确定在给定状态下采取的最佳操作。
如果您现在没有得到它,请不要担心; 我举个例子,希望能让它更清楚。 图 9 非常形象地展示了强化学习。
▲图9:强化学习
您可能会以游戏 Ms. Pac-Man(为什么不是 Pac-Woman 女士?)为例。 吃豆人小姐的目标是吃掉屏幕上的所有圆点,但更大的目标是尽可能吃掉圆点以获得最多分数。 为什么得分最多才是真正的目标? 或者你为什么要玩这个游戏?
首先,得分越多,获得的自由寿命就越长。 自由寿命越长,可以玩的时间越长,可以继续积累更多的积分。 其次,谁不想因完成比赛或创造世界纪录而获得官方的“吹嘘权利”?
在这种情况下,分数是奖励,吃豆人女士是代理人,环境是屏幕,涉及的人(玩家)是通过操纵游戏操纵杆来决定要采取的行动的策略。
当然,环境是有状态的。 有一种普通的无敌情况,吃豆子女士吃屏幕上的点和水果,必须躲避追她的幽灵,还有一种无敌情况,当吃豆子女士吃无敌药丸(我不知道它叫什么)并且她可以吃鬼加分不少。
决定无敌与非无敌的是环境状态的变化,也是agent在环境中能力的变化。
值得一提的是,在 Ms. Pac-man 游戏中,人们有时会被屏幕上的目标所激励,即尽可能多地通关,而不是获得最多的分数。 这种情况下就直接用无敌加速,尽可能多的吃无阻碍的点数,吃鬼估计得不到最多的点数。
假设您有一个强化学习应用程序,目标是获得最高分。 在这种情况下,该应用程序将尝试学习如何做到这一点,即尽可能多地吃鬼和水果。
还要提一下,评分是一种积极的奖励。 被幽灵杀死是一种负面奖励。 随着时间的推移,加固应用程序应该尝试最大化点数并最小化生命损失。 虽然这个例子是在游戏场景中构建的,但我们还有很多其他方式可以使用强化学习。
应用包括:
10 混合动力、自动化及其他
关于实际应用的最后一节确定了被归类为混合或杂项的应用程序,因为它们涉及多种组合技术,或者不属于已经讨论过的任何类别。
应用案例包括:
AI 开发的另一个真正有趣的领域是生成应用程序,基本上是可以从特定类型的输入为给定应用程序生成某些东西的 AI。 包括以下示例:
其他应用包括风格转移(例如,一般图像转移以制作梵高或毕加索风格的“艺术”复制品)。 还有一种称为超分辨率成像的技术,它通过生成缺失的 3D 图像数据将 2D 图像转换为 3D。 最后,图像的自动着色是人工智能的另一个有趣应用。
关于作者:Alex Castrounis,InnoArchiTech 前首席执行官兼首席顾问,同时也是商业、分析和产品管理方面的专家。 亚历克斯拥有近 20 年的创新经验,并向成千上万的人传授了数据科学和高级分析的价值。
本文摘自“AI Strategy:A Framework for Better Human Experience and Business Success”,经出版商许可出版。