昆仑人工智能-智能人工自动驾驶
WAVE SUMMIT 2022深度学习开发者峰会上周圆满落幕。 来自产学研界的专家学者和高级人工智能工程师在七场平行论坛中带来了精彩的技术分享。 峰会特设【智能硬核生态共创】平行论坛。 昆仑科技生物计算研发总监郑焕新受邀参会,并做了“昆仑芯×飞桨:共创智能计算‘芯’生态”的主题演讲。
Kunlun Core适配百度飞桨等主流框架,支持推理和训练场景。 生态建设正在逐步完善,并在丰富的业务场景落地。 作为中国人工智能芯片领域的先行者昆仑人工智能,昆仑科技依托团队在芯片和智能计算领域多年耕耘的行业影响力,致力于携手上下游合作伙伴打造智能计算“芯”生态系统。
以下内容来自演讲实录:
大家好,我是昆仑芯科技的郑焕新。
昆仑芯科技是一家人工智能芯片公司。 2021年4月完成独立融资,首轮估值约130亿元。 公司前身为百度智能芯片与架构部。 深耕实际业务场景AI加速领域十余年。 是一家在架构、芯片实现、软件系统、场景应用等方面有着深厚积累的AI芯片公司。
昆仑科技拥有雄厚的研发实力。 团队成员拥有世界顶尖学术背景,提出了100%自主研发的通用AI计算处理器核心架构昆仑XPU。 研究成果也成功发表在Hot Chips、ISSCC等国际顶级学术会议上。 .
在实现方面,第一代昆仑芯片已经在百度搜索引擎、小度等业务部署了2万多颗芯片。 是国内唯一一款经历过大规模互联网核心算法考验的云端AI芯片产品。 昆仑芯2代采用7nm工艺,将于2021年8月量产。更先进的昆仑3代、自动驾驶芯片等多款产品已经启动研发。
随着人工智能越来越普及,对其所依赖的计算能力的需求也越来越大。 在此背景下,昆仑的愿景是“成为划时代的、世界领先的智能计算公司”,为人工智能的发展提供计算能力。
昆仑芯在AI芯片领域经历了10多年的发展历程。 2011年启动FPGA AI加速器项目,到2015年部署芯片5000颗,2017年部署芯片12000多颗,数量为行业第一; 2017年发布自研架构昆仑Core XPU; 2018年推出昆仑芯; 2020年昆仑核心1代大规模部署; 2021年第二代昆仑芯片量产。
昆仑核心软硬件架构及二代产品
不同于GPU的发展历史,昆仑酷睿1号是在AI发展相对成熟的时候量产的,在设计阶段就更加理解AI场景,提供了更多的加速计算单元,保留了足够多的通用性计算单元,最终取得了更好的性价比。
这是我们的昆仑核心XPU架构:SDNN-软件定义的神经网络引擎,是我们自研的核心张量计算单元,用于加速卷积和矩阵乘法; 集群是我们的通用计算组件; 我们也是国内行业第一家支持GDDR6的厂商之一; 我们的Shared Memory片上共享内存有效保证计算单元的高并发和低延迟访问; 提供高达200GB/s的片间互联带宽,有效提升大规模分布式训练性能。 数据传输效率,减少通信延迟; 支持PCIe第四代接口,双向带宽可达64GB/s。
这是我们的软件架构图:在应用层,我们支持训练、推理和科学计算; 在框架层,除了深度合作的PaddlePaddle,我们还支持TensorFlow、PyTorch等; 我们提供丰富的SDK,包括编辑器、图形引擎、高性能算子库、高性能通信库、驱动; 在环境部署方面,我们支持公有云服务、智能计算中心、智能边缘设备。
这是我们的产品研发路线。 第一代昆仑芯片采用14nm工艺,第二代昆仑芯片采用7nm工艺。 此外,我们的第三代和第四代昆仑芯片正在研发中。
昆仑酷睿1代产品包括两种形态昆仑人工智能,其中K100是K200算力一半的版本,主要用于边缘。 二代昆仑核心产品中,R200 AI加速卡主要用于推理,支持INT8/INT16/INT32/FP16/FP32精度。 值得一提的是,昆仑芯R200 AI加速卡支持视频编解码功能; R480-X8 AI加速器组是我们的单机8卡训练方案,提供200GB/s的片间互联带宽。
综上所述,昆仑酷睿2具有以下特点:
1、通用计算能力显着增强,可灵活支撑AI算法演进,提升资源投入效益;
2、硬件虚拟化提高了AI计算资源的利用率;
3. 高性能分布式AI系统,加速AI数据并行和模型并行的高速数据交换。
介绍完硬件参数,我们再来看看昆仑芯的软件参数。 以R200 AI加速卡为例,与业界主流产品相比,典型AI负载性能提升约1.5倍,其中GEMM矩阵乘法性能提升1.7倍,BERT典型自然语言处理性能加速比为1.4倍。 对Transformer类也有同样的效果; Yolov3和Yolov5性能加速1.3倍; ResNet50视觉分类算法加速1.2倍。
昆仑核心AI算力赋能千行百业
昆仑芯科技前身为百度智能芯片与架构部,自然对互联网AI应用有着深刻的理解。 以百度搜索场景为例,我们已经实现了10000多个芯片的部署,与飞桨联合优化模型:DeepFM、Wide&Deep。此外,我们在包括百度在内的多家互联网公司都有良好的落地表现
在智慧城市领域,万级摄像头采集视频流,通过芯片编解码获取图片,对图片进行人脸检索比对。 这个场景主要是基于CV算法。 我们与 Flying Paddle 的联合优化模型包括:ResNet50、MobileNet-v3、Unet、Yolov3-DarkNet53、SSD-ResNet34。
在工业质检场景中,高清工业相机拍摄零部件进行质量检测。 配备国产AI算力机的质检设备替代人工质检,大大节省人力,14个月即可收回成本。 同时,“5G+AI+工业互联网”解决方案大大提升了整个工厂的智能化水平,帮助企业减少损失,良品率提升约10%。 在这个方向上,我们与 Flying Paddle 联合开发了 Yolov3-DarkNet53 和 SSD-ResNet34。
在目前国内前沿的生物计算领域,我们还适配了基因测序算法Blast和蛋白质折叠预测算法的硬件,取得了很好的加速比。
综上所述,我们在互联网、智慧城市、智慧工业、生物计算、智慧金融、智慧政务、智慧计算中心、智慧交通等各行各业的AI应用场景中提供多种解决方案。
综上所述,昆仑芯科技最独特的优势在于其在百度搜索引擎、小度等业务布局了2万多颗芯片。 是国内唯一一款经历过大规模互联网核心算法考验的云端AI芯片。 、可靠性、稳定性、鲁棒性得到了验证,也证明了团队在芯片架构、软件栈、工程系统层面的技术实力。 此外,昆仑芯灵活支持视觉、语音、NLP、推荐等多种AI场景; 不仅如此,昆仑芯还支持HPC、生物计算等算法的加速。