人工智能图像识别原理-图像 颜色识别
什么是计算机视觉?
计算机视觉是人工智能 (AI) 的一个领域,它使计算机和系统能够从数字图像、视频和其他视觉输入中提取有意义的信息,并根据这些信息采取行动或提出建议。如果人工智能使计算机能够思考,那么计算机视觉使它们能够看到、看到和理解。
计算机视觉的工作方式与人类视觉类似,只是人类具有先天优势。人类视觉的优势在于一生的情境训练,学习如何区分物体,确定它们的距离,判断它们是否在移动,以及图像中是否存在问题。
计算机视觉训练机器执行这些功能,但它必须在比视网膜、视神经和视觉皮层更短的时间内使用摄像头、数据和算法。由于专门用于检查产品或监控生产资产的系统每分钟可以分析数千种产品或流程,注意到难以察觉的缺陷或问题,因此它可以迅速超越人类的能力。
计算机视觉用于各种行业,从能源和公用事业到制造汽车,市场正在增长。
计算机视觉如何工作?
计算机视觉需要大量数据。它反复分析数据,直到识别出差异并最终识别图像。例如,为了训练计算机识别汽车轮胎,它需要获取大量的轮胎图像和轮胎相关项目来学习差异并识别轮胎,尤其是没有缺陷的轮胎。
实现这一目标需要使用两种基本技术:一种称为深度学习,这是一种机器学习。另一种是卷积神经网络(CNN)。
机器学习使用算法模型,允许计算机理解视觉数据的上下文。如果向模型提供了足够的数据,计算机将“看到”数据并自学将一个图像与另一个图像区分开来。算法允许机器自主学习,而不是由人类编程来识别图像。
CNN通过将图像分解为标记像素来帮助机器学习或深度学习模型“看到”。它使用标签来执行卷积(对两个函数进行数学运算以产生第三个函数),并预测它“看到”的内容。神经网络执行卷积,并在一系列迭代中检查其预测的准确性,直到预测结果为真。然后,它以类似人类的方式识别或查看图像。
就像人类从远处制作图像一样,CNN首先辨别边缘和简单的形状,然后在重复预测时填写信息。CNN用于理解单个图像。递归神经网络(RNN)在视频应用程序中以类似的方式使用人工智能图像识别原理,以帮助计算机了解一系列帧中的图片如何相互关联。
计算机视觉的历史
大约60年来,科学家和工程师一直在努力开发机器识别和理解视觉数据的方法。实验始于1959年,当时神经生理学家向一只猫展示了一系列图像,试图将其大脑的反应联系起来。他们发现它首先对边缘或线条做出反应,这在科学上意味着图像处理从简单的形状开始,例如直边。
大约在同一时间,开发了第一个计算机图像扫描技术,使计算机能够数字化和获取图像。另一个里程碑是在1963年,当时计算机能够将二维图像转换为三维形式。1960年代,人工智能开始作为一个学术领域崛起人工智能图像识别原理,这也标志着人工智能开始解决人类视觉问题。
1974年,光学字符识别(OCR)技术出现,可以识别任何字体或字形的印刷文本。同样,智能字符识别 (ICR) 可以使用神经网络来解释手写文本。从那时起,OCR 和 ICR 已成为文档和发票处理、车牌识别、移动支付、机器翻译和其他常见应用的一部分。
1982年,神经科学家大卫·马尔(David Marr)证明了视觉是分层工作的,并引入了机器的算法来检测边缘、角落、曲线和类似的基本形状。与此同时,计算机科学家Kunihiko Fukushima开发了一个可以识别模式的细胞网络。这个网络称为Neocognitron,在神经网络中包含卷积层。到2000年,
研究集中在物体识别上,到2001年,第一个实时面部识别应用程序出现了。在 2000 年代,视觉数据集的标记和注释被标准化。2010年,ImageNet数据集可用。它包含数百万个标记图像,涵盖一千个对象类,为当今使用的CNN和深度学习模型提供了基础。2012年,多伦多大学的一个团队将CNN投入了图像识别竞赛。这种称为AlexNet的模型大大降低了图像识别的错误率。从那以后,错误率下降到只有几个百分点。
计算机视觉应用
在计算机视觉领域有很多研究正在进行,但这不仅仅是研究。实际应用证明了计算机视觉在商业、娱乐、交通、医疗保健和日常生活中的重要性。这些应用增长的关键驱动力是大量视觉信息流向智能手机、安全系统、交通摄像头和其他视觉仪器。这些数据本可以在各个行业的运营中发挥重要作用,但仍未使用。这些信息为训练计算机视觉应用程序提供了一个测试平台,并为它们成为人类活动的一部分提供了一个起点:
IBM 使用计算机视觉技术在 2018 年高尔夫大师赛上创建了 My Moments。IBM Watson观看了数百小时的Masters镜头,并能够识别重要镜头的声音和图像。它筛选这些关键时刻,并将它们作为集锦的个性化回放提供给粉丝。
谷歌翻译允许用户将智能手机摄像头对准另一种语言的徽标,并几乎立即获得他们首选语言的徽标翻译。
自动驾驶汽车的发展依赖于计算机视觉来理解来自汽车摄像头和其他传感器的视觉输入。识别其他汽车、交通标志、车道标记、行人、自行车以及道路上遇到的所有其他视觉信息至关重要。
IBM正在与Verizon等合作伙伴合作,应用计算机视觉技术将智能AI带到边缘,并帮助汽车制造商在汽车出厂前识别质量缺陷。
计算机视觉示例
许多组织缺乏资金来资助计算机视觉实验室和资源来创建深度学习模型和神经网络。他们也可能缺乏处理大量视觉数据所需的计算能力。像IBM这样的公司通过提供计算机视觉软件开发服务来帮助解决这个问题。这些服务通过云提供预构建的学习模型,并减少对计算资源的需求。用户通过应用程序编程接口 (API) 连接到这些服务,并使用它们来开发计算机视觉应用程序。
IBM还推出了一个计算机视觉平台,可以解决开发和计算资源的问题。IBM Maximo Visual Inspection 包含的工具使专业人员能够标记、训练和部署深度学习视觉模型,无需编码或深度学习专业知识。视觉模型可以部署在本地数据中心、云和边缘设备上。
随着开发计算机视觉应用程序以访问资源变得越来越容易,一个重要的问题是:这些应用程序究竟要做什么?了解和定义特定的计算机视觉任务可以集中和验证项目和应用程序,并使其更容易入门。
以下是一些已经建立的计算机视觉任务示例:图像分类
意味着看到图像并能够对其进行分类(狗,苹果,脸)。更准确地说,它能够准确地预测给定图像属于某个类别。例如,社交媒体公司可能希望使用它来自动识别和隔离用户上传的不当图像。
对象检测可以使用图像分类来识别某种类型的图像,然后检测和计数它们在图像或视频中的出现次数。例如,检测生产线上的损坏或识别需要维护的机器。目标跟踪
是在检测到目标后对其进行跟踪。此任务通常使用连续捕获的图像或实时视频执行。例如,自动驾驶汽车不仅需要对行人、其他汽车和道路基础设施等物体进行分类和检测,还需要跟踪它们的运动以避免碰撞并遵守交通法规。基于内容的图像检索
使用计算机视觉根据图像内容而不是与其关联的元数据标记从大型数据存储中浏览、搜索和检索图像。该任务可以包括自动图像注释,而不是手动图像标记。这些任务可用于数字资产管理系统,以提高搜索和检索的准确性。
[1]: