人工智能语义分析-(深度学)人工智能中的语义分析技术及其应用
人工智能中的语义分析技术及其应用
一、人工智能语义分析技术
语义分析(SemanticAnalysis)是人工智能
(Artificiallntelligence)的一个分支是自然语言处理技术的几 个核心任务涉及语言学、计算语言学、机ersinColorado
语义表达式:answer (river (loc_2 (stateid ("Colorado"))))
虽然各种形式化表示方法采用的理论依据和表示方法不一样 但其组成通常包括關系谓词(如上例中的loc_2、river等)、实 体 (如Colorado)等。语义分析通常需要知识库的支持在该知识库中 预先定义了一序列的实体、属性以及实体之间的关系。
篇章级语义分析 篇章是指由一系列连续的子句、句子或语段构成的语言整体 单 位在一个篇章中子句、句子或语段间具有一定的层次结构和语 义关 系篇章结构分析旨在分析出其中的层次结构和语义关系。具 体来说 给定一段文本其任务是自动识别出该文本中的所有篇章结 构其中每 个篇章结构由连接词两个相应的论元以及篇章关系类别 构成。篇章 结构可进一步分为显式和隐式显式篇章关系指连接词 存在于文本中 而隐式篇章关系指连接词不存在于文本中但可以根 据上下文语境推 导出合适的连接词。对于显式篇章关系类别连接 词为判断篇章关系 类别提供了重要依据关系识别准确率较高;但 对于隐式篇章关系由 于连接词未知关系类别判定较为困难也是篇 章分析中的一个重要研 究内容和难点。
(二)深度学****技术(深度学****在 NLP 中的研究内容) 在深度学****技术中循环神经网络
(RecurrentNeuralworksRNNs )被证明在自然语言处理中是最有 效的下面将介绍循环神经网络。
RNNs 的目的是使用序列来处理数据。在传统的神经网络模型 中是从输入层到隐含层再到输出层层与层之间是全连接的每层之 间 的节点是无连接的。但是这种普通的神经网络对于很多问题却 无能 无力。例如你要预测句子的下一个单词是什么一般需要用到 前面的 单词因为一个句子中前后单词并不是独立的。RNNs之所以称为循 环神经网路即一个序列当前的输出与前面的输出也有关。 具体的表 现形式为网络会对前面的信息进行记忆并应用于当前输 出的计算中 即隐藏层之间的节点不再无连接而是有连接的并且隐 藏层的输入不 仅包括输入层的输出还包括上一时刻隐藏层的输 出。理论上 RNNs 能够对任何长度的序列数据进行处理。但是在实 践中为了降低复杂 性往往假设当前的状态只与前面的几个状态相 关。
RNNs 已经在实践中被证明对 NLP 是非常成功的。如词向量表 达、语句合法性检查、词性标注等。在 RNNs 中目前使用最广泛、 最成功的模型便是 LSTMs (LongShort-TermMemory 长短时记忆模 型)模型该模型通常比 vanillaRNNs 能够更好地对长短时记忆模 型 依赖进行表达该模型相对于一般的 RNNs 只是在隐藏层做了手 脚。
RNNs 可以应用于语言模型与文本生成、文本分类、机器翻译 等自然语言处理任务中。
三、面向业务建模的语义分析(介绍 DINF0-0EC 平台和技 术)
(一)DINFO-OEC平臺介绍
DINFO-OEC 非结构化大数据分析挖掘平台是中科鼎富(北京) 科技发展有限公司研发的大数据产品具有非结构化文本大数据的 分 析、挖掘的超凡能力是企业实施大数据战略的强大利器。
大数据中 80%都是非结构化大数据非结构化大数据因其中的业 务对象、对象之间的关系等都蕴含在文本内容中而文本内容来源 繁 多、表达方式灵活多样、存在着大量的歧义性因此无法使用传 统的 BI 工具等进行分析无法直接服务于业务实现业务价值。非结 构化 大数据是大数据处理的难点和热点。DINFO-OEC平台支持三位一体 的多维度业务建模能力结合自然语言处理、深度学****等统计 文本挖 掘算法基于平台立体式的业务模型的智能语义感知技术提 供对非结 构化大数据智能理解与自动化处理能力实现文本知识的 多维度的业
务标签标记功能将无序的非结构化信息转换为满足业 务需求的结构 化数据。DINFO-OEC平台支持与主流Hadoop. Spark等大数据平台 实现对接利用hadoop平台提供的分布式存储和Map/Reduce分布式 计算能力实现复杂、批量的大数据分析挖掘。利用Spark, kafka 等提供的实时分布式计算能力提供海量数据的 实时分析计算能力融 合主流的搜索引擎技术支持基于海量历史数 据的交互式搜索功能。 DINFO-OEC平台支持与常用的商业智能系统进行融合实现结构化数 据和非结构化数据的融合分析挖掘最大化 的挖掘大数据的业务价值 提供大数据分析挖掘支持下的业务创 新。
(二)业务建模
业