当前位置: 主页 > 人工智能

深度学习 人工智能-深度学习 特征学习

发布时间:2023-03-12 12:58   浏览次数:次   作者:佚名

► 文 观网财经/贺喜格

美国在人工智能的发展战略中,一直把中国当作首要的比较和防范对象,并进行了深刻观察。美国“防务一号(Defense One)”网站曾经发布《人工智能报告》称,“中国人工智能发展势头很猛,但其缺点亦十分明显:硬件和算法开发、人才流失和技术标准较低;创新人工智能框架方面发展薄弱。”

人工智能开发平台建设初期需搭建底层技术框架,主要指深度学习框架,被称为“智能时代的操作系统”。几乎所有的深度学习开发者,都要使用深度学习框架,是人工智能发展中的“兵家必争之地”。但应用最广的两个深度学习框架,均出自美国科技巨头之手。据弗若斯特沙利文公司(Frost & Sullivan)发布的《2021年中国AI开发平台市场报告》(研究周期是2020年),由Google开发的TensorFlow依托工业界的部署优势,市场关注度持续第一;META(Facebook)开发的PyTorch凭借其易用性,其应用数量在各大顶级学术会议论文中占比超过50%。

2016年,百度的PaddlePaddle打响了国产深度学习框架开源的第一枪。2019年4月,在首届WAVE SUMMIT深度学习开发者峰会上,百度首次公布了PaddlePaddle 的中文名——飞桨,开始强调自己更适合中国开发者,以及更加专注于深度学习模型的产业实践。与此同时,飞桨PaddlePaddle的发展开始提速。

IDC发布的2021年上半年深度学习框架平台市场份额报告显示,百度在中国深度学习平台市场中的综合份额持续增长,超越Google和META(Facebook),跃居第一。由此,百度也加入了Google和META(Facebook)的战局,在深度学习领域形成PaddlePaddle、PyTorch和TensorFlow——“PPT”三强鼎立的格局。

你方唱罢我登场,Google与Facebook两强之争

2015年11月,Google发布了TensorFlow的白皮书并很快将其开源。但即使以Google的影响力,开源TensorFlow并没有在技术圈之外引起过多反响。

2016年3月,AlphaGo与世界围棋冠军李世石进行了人机大战,并以4比1的总比分获胜,成为当年现象级事件。与此同时,也点燃了大众对人工智能的热情,AI技术在各行各业的应用开始加速,TensorFlow也随之被外界所关注。

深度学习 人工智能_深度学习 特征学习_深度学习与机器学习

AlphaGo之所以能大放异彩,是因为它有一个“最强大脑”,而这个大脑正建立在TensorFlow之上。“TensorFlow对于AlphaGo来说更多的是底层支撑技术,我们的作用是让AlphaGo运作更顺畅。”TensorFlow项目领导Rajat Monga如是说。

深度学习 特征学习_深度学习 人工智能_深度学习与机器学习

早在2011年,Google Brain(谷歌大脑)内部孵化了一个叫做DistBelief的项目,这个项目也被视为TensorFlow的前身。它是为深度神经网络而构建的一个机器学习系统,当时被广泛应用在Google内部的科研和商业产品中,如搜索、YouTube、语音搜索、广告、相册、地图、街景和Google翻译等。

之后Google决定把DistBelief打造成一个更加快速、稳健、通用的深度学习框架,调动了大批工程师投入到对DistBelief的改造,其中就包括在人工智能乃至整个计算机科学领域都赫赫有名的Jeff Dean,DistBelief迅速蜕变,成为一个工业级的深度学习框架,也就是后来的TensorFlow。

据Google当时的介绍,TensorFlow在图像分类的任务中,在100个GPUs和不到65小时的训练时间下,达到了78%的正确率。更快速高效的训练速度就是人工智能企业的核心竞争力之一,而分布式则意味着TensorFlow能够真正大规模进入到产业中,从而产生实质影响。

除Google之外,eBay、Airbnb、Twitter、Uber也都在使用TensorFlow进行AI模型训练和开发深度学习 人工智能,同时,国内也有大量公司使用TensorFlow开源框架。

通过TensorFlow建立的大规模深度学习模型的应用场景非常广泛,并且获得了最前沿的成果,这些领域包括语音识别、自然语言处理、计算机视觉、机器人控制、信息抽取、药物研发等。

数据科学网站KDnuggets的统计显示,2018年时,在GitHub的活跃度、Google上的搜索量、知名科技媒体Medium上的文章数量以及arXiv上的论文数量,TensorFlow所占比重都是最多的,遥遥领先于其他深度学习框架。科技大厂背景、明星团队、先发优势,TensorFlow迅速成为最炙手可热的深度学习框架。

深度学习 特征学习_深度学习与机器学习_深度学习 人工智能

但一家独大的局面也并未持续太久。早在改名META之前,Facebook与Google的竞争就早已是公开的秘密,自然不会将深度学习框架这块人工智能发展的“必争之地”拱手让人。就在AlphaGo击败李世石的同一年,Facebook内部正在酝酿一场未来深度学习框架之争的风暴。

彼时Facebook AI还在使用Caffe、Torch框架。虽然TensorFlow的出现使得过去很多繁杂的工作得到简化,但还有许多基于Caffe、Torch框架的研究,而Torch这样的框架在使用时却不甚便利,开发者甚至需要每组网络层手动编写微分,然后再以一种复杂的方式组合在一起。

一个名为Soumith Chintala的人希望可以开发出新一代的框架,它可以自动微分,而且使用动态计算图。后来,他成为了PyTorch的创始人。

深度学习 特征学习_深度学习 人工智能_深度学习与机器学习

TensorFlow在高速发展过程中,也产生了很多被人诟病的地方,比如API的稳定性、效率和基于静态计算图的编程上的复杂性等。这些不足之处为竞争中的PyTorch送上了助攻。

2018年,Caffe2代码并入PyTorch ,Facebook主力支持的两大深度学习框架合二为一,PyTorch的发展驶入快车道,崛起速度令人咂舌。Chintala也介绍,很多研究人员喜爱PyTorch。如今,PyTorch已经在学术论文圈形成了绝对的优势。据统计,在Hugging Face上有85%的模型是PyTorch独家的,TensorFlow的比例仅为8%。而在最受欢迎的前30个项目中,所有项目都有使用PyTorch,而超过10个模型并未使用TensorFlow。

深度学习 特征学习_深度学习与机器学习_深度学习 人工智能

深度学习与机器学习_深度学习 人工智能_深度学习 特征学习

对八家顶尖研究期刊的统计数据显示,诞生之初,仅有7%的论文使用了PyTorch框架,而到了2021年,这一比例已经增长到了接近80%。

深度学习 人工智能_深度学习 特征学习_深度学习与机器学习

此外,在2019年,有55%的TensorFlow使用者转而使用了PyTorch。

虽然随着PyTorch的崛起,TensorFlow的威势不再,但在工业界,TensorFlow仍然占据着主流框架的位置。

TensorFlow比PyTorch更适用于生产环境。科研人员最关心的是他们在研究当中迭代的速度有多快,他们会优先考虑框架实现新思路的能力。相反,工业界则认为性能是最需要优先考虑的。

另外,从一开始TensorFlow就是一个面向部署的首选框架,因为它有一系列可以提高端到端深度学习效率的工具深度学习 人工智能,比如TensorFlow Serving和TensorFlow Lite。

深度学习 人工智能_深度学习与机器学习_深度学习 特征学习

PyTorch还不能够很好地满足工业界的需求,因此大多数在生产环境下的开发者都倾向选择使用TensorFlow。但从1.6版本发布开始,PyTorch对生产环境的支持也更加友好,外界认为 PyTorch 会逐渐在此方面缩小与TensorFlow的差距。

TensorFlow依托工业界的部署优势,PyTorch凭借其易用性优势,两者一度占领了全球深度学习市场,但随着中国企业加入到这场竞争中,这个格局已然出现了变化。

深度学习框架之争的下半场,“PT”变成“PPT”

回望2016年,对于深度学习框架来说,是历史性的一年,也正是在这一年,百度的PaddlePaddle开源,打响了国产深度学习框架开源的第一枪。百度的出征,也标志着中国科技企业有能力参与到人工智能底层技术的竞争中。

其实,PaddlePaddle的开发与应用也已颇有些时日。当时的深度学习框架大多只支持单 GPU运算,对于百度这样需要对大规模数据进行处理的企业,显然远远不够,极大拖慢了研究速度。百度急需一种能够支持多GPU、多台机器并行计算的深度学习平台,由此促成了这个框架的诞生。

2016年百度世界大会上,PaddlePaddle正式对外开源开放。毕竟是国产框架,2019年,PaddlePaddle有了中文名,名叫“飞桨”,取自“闻说双飞桨,翩然下广津”。

到2020年,国产深度学习框架百花齐放,国内顶级科技公司和研究机构逐渐开始开源自己的深度学习计算框架,包括旷视的MegEngine、清华的Jittor、华为的MindSpore以及一流科技的OneFlow等等。

此时,国产框架在技术上不再是单纯的跟随者。其中百度最早出发,生态建设也最早起步。飞桨PaddlePaddle作为国内最早的开源框架,模型库最丰富,产业链生态也最成规模。它免费开放了很多超大规模数据预训练模型,可以直接在产业界落地使用。同时,飞桨PaddlePaddle持续降低AI产业应用门槛,将人工智能变为中小企业与普通产业从业者也能方便使用的工具。

简而言之,易学易用,灵活高效,成为飞桨PaddlePaddle的一大亮点。

如今,在GitHub(世界最大开源代码平台)上,TensorFlow、PyTorch和飞桨PaddlePaddle组织下的开源代码仓库star总量位居前三,飞桨PaddlePaddle的star数超过1k的repo合计,总star数已超过100k,还在不断增长。在公开数据上看,这个国产框架已经可与TensorFlow和PyTorch分庭伉礼。

深度学习与机器学习_深度学习 人工智能_深度学习 特征学习

数据调研机构IDC发布的2021年上半年深度学习框架平台市场份额报告也显示,百度在中国深度学习平台市场中的综合份额持续增长,超过Google和Facebook,跃居第一。

深度学习与机器学习_深度学习 特征学习_深度学习 人工智能

至此,“PyTorch还是TensorFlow”这种“PT”里边二选一的局面已成为过去,深度学习框架领域,PaddlePaddle、PyTorch、TensorFlow三强鼎立的“PPT”时代已经来临。

截至2021年底,飞桨PaddlePaddle已经汇聚406万开发者,创建了47.6万个模型,服务15.7万家企业,帮助中国企业将智能化升级主导权掌握在自己手中。

“PPT”时代,深度学习框架如何竞争

“就我们的经验来说,开发者才是推动改天换地的在线体验背后的驱动力量,特别是当他们手握便利工具时更是如虎添翼。”这是Fastly客户解决方案高级副总裁Adam Denenberg曾说过的一句话。“得开发者得天下”,这话放在深度学习框架一样适用,不遗余力吸引开发者进入,成为了“PPT”三大深度学习框架的共同目标。

而如何获得开发者的青睐,则要看“PPT”等深度学习框架的完备性、高效性和易用性。“PPT”间的竞争就是最典型的例子。

起初,TensorFlow凭借Google强大的技术实力,做到了技术领先,能为人所不能,对于需要将模型投入生产的人来说,TensorFlow强大的部署框架和端到端TensorFlow Extended平台,使其表现一直很强势,随之也为它带来越来越多的开发者,其开发社区生态也得到良性发展。

但系统复杂程度高、难以维护、API不稳定等缺点一直都为开发者所诟病,PyTorch出现以后,其强劲的增长势头很大程度上是拜TensorFlow的这些缺点所赐,相当一部分开发者转而使用PyTorch。尽管在2019年推出的TensorFlow 2针对性地改善了一些问题,但PyTorch的增长势头已经难以遏制,竞争格局已然形成。恐怕连Google自己也没有想到,框架的易用性可以让PyTorch抢走那么多开发者。

而在国外科技巨头的竞争之外,国产的飞桨PaddlePaddle也以易学易用,灵活高效著称。飞桨同样依托了百度的技术实力和业务应用积累。在训练部分的调用方式上,飞桨集中了浏览器和客户端等多种主流调用方式,并支持CPU、GPU、FPGA等广泛硬件,从而极力降低使用门槛。同时,为了让更多开发者和企业能够将现有项目接入到飞桨,做到了从基础训练到分布架构彻底开源。这些努力为其带来不少开发者。

深度学习与机器学习_深度学习 特征学习_深度学习 人工智能

飞桨PaddlePaddle方面也曾表示,要发展成具有中国特色、最适合中国国情的深度学习平台。从当前国内市场来看,飞桨所提供的适用中文文档与数据集的开发框架社区,也是其在“PPT”的竞争当中站稳脚跟的一大助力。更适合本土开发者和产业体系的框架,自然会使飞桨更具吸引力。

尾声

其实有不少人对国产深度学习框架的发展持有怀疑态度,深度学习框架的搭建是一项费时费力的庞大工程,比如在使用飞桨PaddlePaddle时会担心它的技术深度,感觉重复“造轮子”没必要。

但深度学习技术仍在不断发展,复杂程度也会跟着提高,强如“PPT”,也并不意味这三个框架已经达到完美的程度,只能说各有千秋,最终谁能真正造成这个“轮子”未来仍有变数,飞桨PaddlePaddle等国产框架依然有很大的机会。

另外,美国政界越来越多地关注人工智能领域的国际竞争,其中最受其重视的是,防止中国取得对人工智能的全球领导权。去年3月,美国人工智能国家安全委员会(NSCAI)向美国国会提交了一份长达756页、关于人工智能领域竞争的报告,其中提出了以期压制中国人工智能发展的建议。这说明了在人工智能领域构建中国自主可控核心技术的重要性和必要性。

如果把人工智能产业比作一栋楼,那深度学习框架就好比是地基,地基不稳,工艺再好的楼也总是要面临坍塌的风险,高度依赖国外的深度学习框架便相当于“被卡住了脖子”。有鉴于此,中国在推进自身人工智能的发展时,理应准备好相应的对策,科技自立自强是人工智能发展格局的根本支撑,也是向世界证明中国人工智能的创新能力和底气。

参考资料

Defense One 《Artificial Intelligence》

KDnuggets 《Deep Learning Framework Power Scores 2018》

腾讯科技 《TensorFlow项目负责人:我们让AlphaGo更顺畅》

Ryan O'Connor《PyTorch vs TensorFlow in 2022》