人工智能自动生成文本-文本解读与意义生成
上期,我们讲述了人工智能与量化交易的结合——主要利用机器学习,自然语言处理,以及最近火热的知识图谱技术,将海量异构信息分析人工智能自动生成文本,为投资者建立交易投资的预测模型。
本期,我们来关注成本问题,思考下人工智能如何辅助金融新闻、研报、投资意向书的生成。尽管交易才是金融领域的核心,但如果降低了繁琐工作的(时间)成本,减少数字罗列、整理、反复Copy-Paste的工作,分析员们便有更多的时间进行深入分析,早先一步准备材料并上会,便早一步握住了商机。此外,对于我国的上亿股民来说,信息传达的快速与准确是核心需求,机器自动生成的新闻便可提供客观实时的市场资讯。
从技术上讲,机器新闻写作包括了自然语言处理(NLP)的两方面技术,自然语言理解(NLU—Natural Language Understanding)和自然语言生成(NLG—Natural Language Generation)。NLU将我们日常所见的话语消化理解,并转化为机器可后续处理的结构;而NLG可以看作NLU的反面,它将由机器分析好的结构化数据再以平常人们能看懂的自然语句表达出来。
机器新闻写作需要如下几个步骤:
处理海量异构数据
需要将生产新闻所需的各种资料与数据消化,即包括自然文本的新闻报告,也包括数据库,第三方平台,API等等来源的结构化数据,遇到文本中的图片与表格,还需要利用OCR[1]等技术解析。
注:[1] Optical Character Recognition,光学字符识别
分析数据
这里涉及到对各种数据的分析,运用知识图谱中常用的实体提取与实体关联等技术将关键逻辑主干抽出,结合时间地点等因素,将关键信息嵌入预先设计好的模板。
文章生成
事实上,经过上述步骤不仅仅可以生产新闻,券商分析研报,上市招股书,企业年报,定增公告,基金研究员上会所需的投资建议书都可以类似方式生成人工智能自动生成文本,用户只需选择符合其需求的模板(哪个主题,哪些关键信息)与形式(PPT还是PDF),便可生成基本内容;而对于准确率有严格要求的内容,再进行多次校对,人工二次编辑。
目前国外做新闻自动生成的公司有:
1、Automated Insights是由美联社等其他投资者投资的美国科技公司,他们的主要产品Wordsmith已自动创造出10多亿篇文章与报告,主要客户是美联社,雅虎和Comcast,在去年2月份PE公司Vista Equity Partners将其收购。[1]
2、法国公司Yseop可以每秒生产3000页内容,支持多种语言(英语,法语,德语等),产品适合于银行、电信公司的客户服务部门以及财经新闻网站。再生成一篇包含基本数据和精确数据的初稿后,交由编辑记者进行进行后续的润色排版,以及深入的价值判断。[1]
3、美国公司Narrative Science总共已经融资了3200万美元,该公司的著名数据分析平台Quill可以分析结构化数据,将人工智能与大数据进行技术融合,理解这些数据的重要性,从而产生简短的文字表述或结构化的报告内容。[1]
此外类似的公司还有,Arria NLG,Linguastat。
国内产品有:
1、腾讯的DreamWriter,它根据算法在第一时间自动生成稿件,瞬时输出分析和研判,一分钟内将重要资讯和解读送达用户,腾讯称,写稿机器人不会抢走记者的饭碗,希望Dreamwriter能够解放记者,让记者从事更具挑战和智慧的工作。[2]
2、搜狐的智能报盘,它由机器人自动跟踪、捕捉股票市场动态,并实时发布资讯的智能系统,通过搜狐新闻客户端“财经频道”同步推送到用户面前,让用户准确、快速获取股市即时变动情况,以及感兴趣的股票信息。[3]
注:[1] wikipeida相应页面
[2]
[3]
就新三板市场讲,公开转让说明书,各类需披露报告,研报都可以用机器来辅助工作。目前企业挂牌大约需要6个月的时间,需要支付给券商,会计师事务所,律师事务所等机构至少200万人民币,转让说明书中有大量的内容是可以用模板生成的,比如历次股份变更,可以通过工商数据集成自动化,财务报表也可以与会计统计的数据自动化。自动化不仅可以提高效率,还可以检验数据的一致性。股转系统官方的反馈意见提到过很多次会计数据与转让说明书数据不一致的情况,一次反馈与反馈意见回复往往要花费半个月以上,机器的辅助校验非常必要。
作者简介
王丛 文因互联CKO
Wright State Univ计算机科学博士生,专攻知识表现与推理。曾参与欧盟LarKC项目,前后在DERI,IBM,西门子实习,TU Dresden访问。JAIR,TKDE,ISWC等顶级刊物、会议审稿人。