在工业、医疗、智能驾驶、智能城市领域广泛应用的嵌入式系统,在AI无处不在的浪潮之下,为承接在高度受限的系统中高效和实时处理工作负载的重任,对实现端到端加速的单芯片解决方案需求日益攀升。
为应对这一趋势,AMD日前宣布推出第二代Versal AI Edge系列和Versal Prime系列,分别面向AI驱动型嵌入式系统和经典嵌入式系统,成为继2018年推出第一代Versal自适应SoC之后的“升维”力作。
多芯片方案难合时宜
在AI驱动的嵌入式系统中,如何在低功耗低时延的情形下更快地处理工作负载成为关键的考量。
AMD自适应与嵌入式计算事业部Versal产品营销总监Manuel Uhm将AI驱动型嵌入式系统的处理阶段分为三段:预处理—AI推理—后处理,只有这三个阶段都能得到高效运行和优化,才能获得真正的AI加速。
目前市场上的嵌入式方案采用分而治之的方案,Manuel Uhm指出,预处理使用FPGA或SoC、AI推理环节使用非自适应SoC、后处理采用高性能嵌入式CPU等策略。其中,预处理非常重要,需要对不同的传感器数据进行实时处理,FPGA的优势在于可灵活适配不同的传感器、I/O接口和数据,还可保证低时延和后续升级。
尽管采用多芯片策略可提供灵活性,但由于接口数量有限和缺乏灵活性,数据在多种芯片间转移还将导致时延增加、效率降低,并且需要外部内存共享数据,从而增加了占板面积和功耗,不仅引发了高功耗、占板面积过大等问题,多组件系统还增加了安全风险和设计以及生产难度。
着眼于上述挑战,AMD推出的第二代Versal AI Edge系列和Versal Prime系列成为集大成之作,整合AMD和赛灵思的双重优势,全面整合下一代AI引擎、高性能集成CPU以及自适应Versal,将预处理、AI 推理与后处理集成于单个器件中,为AI驱动型嵌入式系统提供了完整的端到端加速。
全面进阶助力中央计算
旨在实现全部三个阶段的加速,成为AMD第二代Versal AI Edge和第二代Versal Prime系列系列器件的“显学”。
据介绍,在预处理方面,FPGA可编程逻辑架构用于实时处理,卓越的灵活性可连接各种传感器并实现高吞吐量、低时延数据处理工作流程;矢量处理器阵列构成强大的全新AIE-ML v2 AI引擎,可实现高效AI推理;通过集成8X Arm Cortex-A78AE应用处理器和10X Arm Cortex-R52实时处理器,标量计算能力提升10倍,为安全关键型应用提供了复杂决策与控制所需的后处理能力。
Manuel Uhm着重指出,与第一代产品通过FPGA来实现AI引擎控制不同,新二代产品处理器包含在AI引擎阵列之中,并进行了硬化处理,因而AI引擎控制的工作无需交由FPGA处理,可更高效进行传感器和其他数据处理工作。
由于“三合一”式的集成,Manuel Uhm表示,第二代产品系列无须采用外部安全MCU以及内存访问,安全功能进一步加强。而且,AMD考虑到边缘应用对于信息安全和功能安全有着非常严格的要求,第二代Versal系列产品还加大了对功能安全和信息安全的支持力度,增加了对ASIL D/SIL 3等标准的支持。
而第二代Versal Prime系列通过将面向传感器处理的FPGA与高性能嵌入式 Arm CPU相结合,将标量计算能力提升10倍,成为超高清视频流与录制、工业PC等应用的不二之选。
无疑,这一单芯片方案不仅消除了构建多芯片处理解决方案的需求,实现更高效的嵌入式 AI系统,还为缩短上市时间提供了潜能。从实际应用案例来看,全方位的加速成就相当亮眼。在L2+/L3 ADAS应用中,由于加入硬图像处理功能,第二代AI Edge系列在具备相近功率资源的前提下,其图像处理能力提升了4倍。在智慧城市场景中,第二代AI Edge系列在为边缘AI设备占板面积带来30%尺寸缩小的同时,却支持2倍视频流,意味着每路视频流占板面积缩小65%。
要让AI嵌入式系统加速落地,设计工具也至关重要。AMD Vivado设计套件工具及库有助于为开发人员提升生产力并简化设计周期,从而缩短编译时间与提升结果质量。对于嵌入式软件开发人员,AMD Vitis统一软件平台支持用户进行嵌入式软件、信号处理和AI设计开发,快速使用开源工具PyTorch、TensorFlow等,无需具备 FPGA 经验,从而进一步加快部署。
“第二代Versal自适应SoC的目的是提供面向AI驱动型以及经典嵌入式系统的中央计算,而第一代产品更多是边缘传感计算和CPU卸载,这是最大的不同。”Manuel Uhm最后表示,“AI已无处不在,AMD将全面融合CPU、GPU和FPGA优势,深度参与AI创新和发展,不断为无处不在的AI发展贡献力量。”