华为智能驾驶芯片深度分析-采编:苏造办智慧商显15510033533
http://www.suzaoban.com/?a=show&c=index&id=3917
华为智能汽车部门IAS下设有三个部门,分别是提供应用算法的Autonomous Driving Solution (ADS)、提供域控制器的Mobile Data Center(MDC)和提供传感器系统的集成感知事业部。
其中,ADS负责算法研究,细分为Obstacle Detection Team(障碍物探测)和Prediction and Decision(预测与决策)两个小组。
MDC类似于Tier1供应商,主要为华为ARM服务器业务提供硬件。
华为智能驾驶使用的芯片由华为旗下的海思公司提供,与华为ARM服务器芯片共享研发成果。华为的智能驾驶芯片主要分为鲲鹏、昇腾、麒麟和鸿鹄四个系列。
鲲鹏系列主要是CPU,昇腾系列是AI加速器,麒麟主要面向手机市场,鸿鹄则主要用于电视。智能驾驶是昇腾系列的延伸,而基于麒麟990的麒麟990A则是华为的汽车座舱芯片。
华为智能驾驶芯片主要有昇腾310、昇腾610和昇腾620三款,这三款芯片可以级联以提高性能。这些芯片的设计采用模块化形式,尽量复用研发成果。
昇腾系列的CPU和AI核心基本相同,只是核心数量不同。核心数量和种类的不同对应着不同的算法网络。
昇腾芯片的核心分为原始、Max、Mini、Lite和Tiny几个版本,针对不同的应用使用不同的核心和数量配置。
例如,麒麟990在手机领域使用两个Lite核心和一个Tiny核心,总计算力为6.88TOPS@INT8。
而昇腾310使用两个Mini核心,昇腾610使用十个原始核心,昇腾910使用三十二个Max核心。昇腾620可能也会使用十个Max核心。
每个核心的基本结构相似,主要区别在于缓存配置和频率配置的差异。核心的运算单元包括标量Scalar、矢量Vector和张量Tensor。
标量单元负责任务调度,矢量单元负责深度学习的最后激活阶段,张量单元负责卷积矩阵乘法。这三种运算单元分别对应着不同的计算模式。
标量基本与CPU相似,灵活性最高但AI运算力相对较低。1D矢量类似于GPU,灵活性居中,AI算力处于中等水平。
CUBE针对2D矩阵,也就是常说的张量,与英伟达的Tensor核架构基本一致。华为和英伟达在张量核的架构上都采用了三维架构,在计算能力上类似,但面积和成本方面有所不同。
华为的CUBE核算力为8TOPS@FP16,其中每个核心包含4096个FP16 MACs和8192个INT8 MACs。英伟达的Orin芯片每个核心包含2048个CUDA和64个张量核,其稀疏INT8算力为275TOPS。
对于智能驾驶芯片的算力比较,需要考虑不同算法的匹配程度。算力只能在与算法匹配的情况下充分发挥,否则可能只能发挥很低的效能。
同时,智能驾驶领域对存储带宽的需求也很高。华为智能驾驶芯片的设计在2019年是全球最先进的,但随着时间的推移,与英伟达和高通等竞争对手的差距可能会越来越大。
特别是在Transformer时代,存储带宽比算力更为重要。因此,在智能驾驶芯片领域,华为需要进一步优化与算法的匹配,并提升存储带宽。
【免责说明】本文观点和数据仅供参考,不构成投资建议,所有观点和数据仅代表笔者立场,不具有任何指导、投资和决策意见。
华为智能驾驶使用的芯片由华为旗下的海思公司提供,与华为ARM服务器芯片共享研发成果。华为的智能驾驶芯片主要分为鲲鹏、昇腾、麒麟和鸿鹄四个系列。
http://www.suzaoban.com/?a=show&c=index&id=3917