投递商业计划书
热门推荐

瑞见——投资人说

2022年02月25日

瑞见——动态

2022年02月25日

瑞见——瑞鹏行研

2022年02月25日

瑞见——瑞鹏行研

2022年02月25日

瑞见——动态

2022年02月25日

瑞见——瑞鹏行研

2022年02月25日

异构计算之风起云起

浏览次数:244

发布时间:2022-02-25

返回列表
作为当前科技巨头争夺超高性能计算领域技术的制高点,数据中心、云计算和无人驾驶代表了超高性能计算最重要的应用场景和市场。在面向民众的消费端,以智能手机、智能汽车为代表的主流消费产品均对处理器算力的需求、功耗、稳定性和小型化提出了越来越高的要求。并且随着处理器处理的信息维度越来越复杂,单一类型和架构的处理器已经无法胜任多线数据的处理整合的能力。对于用户来讲既要保证算力和性能,又要具备多类型任务的处理能力,还要控制好功耗和成本,这对超高性能的异构处理器提出了非常高的要求。能同时满足这些复杂要求的,只能通过异构计算架构来实现。也就是在一个处理器系统内,需要集成如CPU、GPU、FPGA、AI、通信总线和接口等多种功能模块。

异构计算(Heterogeneous Computing)是指使用不同类型指令集和体系架构的计算单元组成的计算系统。异构计算是性能、成本和功耗均衡的技术,同时也是让最适合的专用硬件去做最适合的事如密集计算或外设管理等,从而达到性能和成本的最优化。
微信图片_20230619163935
由于高性能计算领域对异构计算的需求非常迫切,近年来,处理器行业三大头部厂商英特尔、AMD和英伟达都在基于自身的技术积累和产品优势的领域不断扩充技术和产品边界,以满足市场极其庞大并且飞速发展中下游三大应用场景自动驾驶、数据中心和云计算对异构处理器的需求。  先说GPU王者英伟达,英伟达多年来凭借其GPU在AI训练方面的先天优势,在数据中心的各类AI应用方面如鱼得水。但随着计算任务的多元化需求不断延伸,单靠单一GPU机构还不足够。因此,英伟达一直在觊觎由英特尔和AMD统治的CPU市场以及和GPU良好结合的NPU市场。近年来英伟达为了扩充产品体系巩固高性能计算的地位动作频频,比如近期收购800亿美金收购ARM的大事件(反垄断没有成功)。
英特尔与英伟达正相反,其在基于X86架构的非移动级CPU方面具有绝对统治力。但在牙膏厂始终在高性能GPU方面落后较多,近两年也在大力投入独立GPU显卡业务并收购以色列无人驾驶AI芯片巨头MobileEye,以补齐其在超高算力芯片方面的短板。
AMD则介于两者之间,CPU和GPU技术和产品相对均衡,且随着近几年技术和产品力的提升,市占率和营收打着滚地向上升,弄得英特尔如坐针毡,尽管AMD的业务发展非常均衡,AMD并没有满足于已经拥有的良好发展势头,要在CPU和GPU之外,再开辟出一片全新的超级赛道,将异构计算的性能发挥到极致。此时,智能汽车、自动驾驶的发展引领着这些超级巨头的高度重视。汽车发展的趋势从过去的燃油时代到如今的电动时代再到未来的智能时代,这离不开异构计算对于未来多维度、高复杂和超高算力的三大需求。与此同时,异构计算芯片成为了行业中绝对的热点。

对于业界目前最火的异构计算芯片,今天跟着“瑞见”详细拆解下异构计算的技术细节、未来趋势尤其在在汽车自动驾驶中的应用吧。


什么是异构计算
微信图片_20230619163947
异构计算“Heterogeneous Computing”是一种特殊的并行分布式计算系统。它能够经济有效地实现高计算能力,可扩展性强,能够非常高效地利用计算资源。与之相对的概念就是同构计算“Homogeneous Computing”,也就是为大家熟知的多核理念。为了突破计算算力受制于功耗的瓶颈,多核CPU技术得到越来越多的应用。强大的CPU采用越来越多的CPU内核这就是传统同构计算系统。很快人们就发现在AI人工智能和自动驾驶爆炸式增长的计算需求下,传统同构计算系统已经无法满足要求,GPU、DSP、FPGA和ASIC由于特定需求下高效性越来越多的被应用。而异构计算技术应运而生,像一个大厨将CPU、GPU、DSP、FPGA和ASIC这些优良食材制成一道融合各方口味特点的佳肴。
微信图片_20230619163951
自动驾驶中的摄像头视觉图像处理的计算需求为例,它分为图像获取、特征抽取、特征处理、模式识别和动作反馈等步骤。其中对大量图像数据的高速并行实时处理比如像素处理、图像金字塔和梯度检测等需要GPU和ISP图像信号处理器这样专用内核来高速计算。而DSP和专用加速器则偏向卷积或傅里叶等数学计算加速,CPU更倾向通用计算和复杂动作反馈决策。依托异构计算技术能够整合这些不同架构的内核到单一芯片中从而适配自动驾驶的复杂计算要求。
微信图片_20230619163955

那么到底什么样的芯片是典型的异构计算芯片呢?
苹果作为科技界的先锋,在2021款的Mac Book和IPAD均采用了自研的M1芯片。M1 SoC集成了16核心CPU、DDR4内存、IO接口芯片、T2加密芯片和雷电Thunderbolt接口以及众多控制功能芯片核心。具体包括12个CPU内核、8个GPU核心和16个神经网络加速引擎。并且这些不同架构的内核可以通过标准内存访问架构UMA进行高速数据共享。正是由于异构计算技术的应用,才使得众多不同类型的计算核心可以高效协同。苹果M1以优异的性能功耗比开创了自研异构计算芯片在笔记本电脑市场商用的先河。
异构计算在自动驾驶中的迭代
微信图片_20230619163959
特斯拉作为新能源电动车头部车企,在无人驾驶领域多年来一直深耕。作为纯视觉派无人驾驶的领军者,特斯拉人工智能驾驶辅助系统(ADAS)中最为核心的技术就是深度学习引擎Deep Neural Networks (DNN)。这套DNN引擎通过各类算法的模拟和积累,通过对摄像头采集图像进行分层学习,从图像中可以抽取相应的目标位置,基于对于前方目标辨认标识出的安全空间完成路线规划。通过多次的试错与积累形成最优解,标记算法模型的数据源,再通过深度学习算法不断优化与完善,最终规划出的最优路径。
微信图片_20230619164003
特斯拉无人驾驶方案迭代至Autopilot3.0代可以说是自动驾驶中央计算模块的里程碑事件。因为采用自研异构芯片FSD,使得芯片内部集成了4个ARM A72 CPU核心加1个GPU和2组神经网络处理单元NPU。它能更高速且低能耗地处理1个毫米波雷达和8个摄像头信号,系统算力大幅提升至244TOPS。这其中异构计算架构功不可没。
最后我们来看看作为最佳算力单元的GPU王者英伟达
微信图片_20230619164007

英伟达自动驾驶异构芯片

作为通用图形处理单元GPU领军者英伟达,老黄早在2014年就意识到对浮点型数据具备强大计算能力的GPU在深度学习神经网络DNN的巨大优势。在GPU领域绝对的领先,使得英伟达在自动驾驶领域占尽了优势。开发了基于异构计算架构领域一系列的无人驾驶定制SOC芯片。比如小鹏P7采用的Xavier芯片算力为30TOPS,它具有强大的八核ARM64处理核心和512核Volta GPU,并且能够达到汽车安全所需要功能安全ASIL-D(最高等级)的级别。相对整车级别优化了功耗性能比。而即将量产的蔚来ET7配备了ADAM超算平台,算力达到1016TOPS。ADAM超算平台采用了4组英伟达最新的Orin自动驾驶异构计算技术SOC芯片。每组Orin芯片集成了12个ARM A76 CPU核心和算力在200TOPS左右的GPU内核。

总结

人类在人工智能领域的研究已经持续了60多年。近年来随着AI下游应用不断呈现出的爆发趋势,AI进入了一个新的纪元。这不仅归功于算法的改进、庞大数据的积累,更重要的是计算能力的大幅提升和变革。进入2022这个新纪元,数据成为了每个企业的资产和财富。而在数据的背后,算法、算力、功耗、成本都成为制约AI能否快速发展的瓶颈。

随着硅基芯片逐渐逼近物理的极限以及成本很难再大幅下降,可以判定的是摩尔定律已趋近失效。在此背景下使用通用处理器来覆盖全场景的高复杂需求已无法满足,人工智能的各种应用不断爆发对高计算能力和复杂任务并行处理以及功耗等提出需求。
因此,具有GPU、ASIC、FPGA或其它加速器(Accelerator)等高并行、高密集的计算能力的异构计算持续火热,而异构计算也将成为支撑先进和以后更复杂AI 应用的必然的选择。









区块链当前的垂直应用场景及发展趋势

基于国内上市公司的文旅行业研究报告(一)