 

hai.qin_651820742 明星博主

文章：181 阅读：374115 评论：36 赞：3194

www.toradex.cn

 好友  私信个人主页

www.toradex.cn

文章 181
原创 86
阅读 374115
评论 36
赞 3194

原创基于 NXP iMX8X 测试 GPU FFT 运算

 2019-3-19 11:26  4428 30 30 分类: MCU/ 嵌入式

By Toradex胡珊逢

1). 简介

伴随着 4G 网络的大范围覆盖，已经即将到来的 5G 网络，边缘计算越来越多地开始进入人们的视野。相比于云计算的云端集中处理，边缘计算能够就地进行复杂数据的计算，并迅速作出决策。由于免去了数据的远程传输，边缘计算能够带来更低的延时、更可靠的数据安全。但这也对边缘计算设备带来更大的挑战，特别是计算性能。下面我们将介绍如何在NXP 最新的 iMX8X ARM处理器上面利用 GPU 加速运算快速傅里叶变换 FFT。

本文所演示的ARM平台来自于Toradex Colibri iMX8X 计算机模块，此模块是 Toradex 基于 NXP iMX8 X 推出的紧凑型 Arm 核心板。iMX8X 具有最高4核 64-bit Armv8-A Cortex-A35，主频1.2GHz。Colibri iMX8X板载 WIFI 和蓝牙，使其能够便捷地连接网络和移动设备。集成 Cortex-M4 处理器， iMX8X 除了支持 Linux 等高级操作系统外，还可以同时运行 FreeRTOS，执行低功耗或者实时应用。丰富的工业接口如 CAN、SPI、UART、双以太网等，便于连接外部设备。 GC7000Lite GPU 图形处理单元，峰值算力 64 GFLOPS，支持OpenCL、OpenGL 以及 Vulkan ，方便用户利用 GPU 资源。使用 GPU 处理计算密集型数据，除了能够提高效率外，还可以有效降低 CPU 负荷，保证用户应用流畅运行。接下来你将会了解如何使用 OpenCL 在 iMX8X 上的 GPU 实现 FFT 计算。

2). 搭建开发环境

在撰写本文时，Toradex 基于 imx-4.9.123 Linux BSP 提供 Colibri iMX8X 的支持。由于是早期发布阶段，Toradex SDK 并没有集成使用 OpenCL 在 GPU 计算FFT的库文件，如 GLi、Tclap 等。为了生成完整的 SDK ，我们将使用NXP 标准的 Yocto 环境来生成 SDK 和 FFT demo。

./ 初始化 Yocto

------------------------

$ mkdir imx-yocto-bsp
$ cd imx-yocto-bsp
$ repo init -u https://source.codeaurora.org/external/imx/imx-manifest -b imx-linux-rocko -m imx-4.9.123-2.3.0-8mm_ga.xml
$ repo sync

------------------------

./ 修改 local.conf.org，添加下面内容

------------------------

IMAGE_INSTALL_append = " devil devil-dev imx-gpu-sdk libzip"
CONF_VERSION = "1"
TOOLCHAIN_TARGET_TASK += " devil-dev imx-gpu-sdk libzip"

------------------------

./ 编译文件系统和交叉编译工具

------------------------

$ bitbake fsl-image-gui
$ bitbake meta-toolchain

------------------------

./ 提取文件系统文件，其中包括编译所需的头文件等

------------------------

$ runqemu-extract-sdk ~/imx-yocto-bsp/build-imx8qxpmek/tmp/deploy/images/imx8qxpmek/
fsl-image-gui-imx8qxpmek-20190315085707.rootfs.tar.bz2 ~/imx8qxpmek-rootfs

------------------------

./ 添加 OpenCL 头文件
可以从下面下面链接下载 https://github.com/KhronosGroup/OpenCL-Headers，解压后将其复制到 .../imx8qxpmek-rootfs/usr/include/

./ 建立 libzip 库软链接

------------------------

$ cd ~/imx8qxpmek-rootfs/usr/lib
$ ln -s ../../lib/libz.so.1.2.11 libz.so.1

------------------------

./ Colibri IMX8X SD 卡文件系统构建和烧写方法请参考这里。

3). OpenCL FFT demo 编译

NXP 的 DemoFramework 提供了大量基于 GPU 的demo，包括使用OpenCL、OpenGL 和 Vulkan，用户通过这些 demo 快速了解 iMX GPU 的开发使用方法。下载地址 https://github.com/NXPmicro/gtec-demo-framework

./ Toradex Colibri iMX8X 的 imx-4.9.123 Linux BSP 采用 DemoFramework v5.1.1。下载后解压，并进入该目录，设置编译的环境。

------------------------

$ cd gtec-demo-framework-5.1.1
$ pushd ~/imx-yocto-bsp/build-imx8qxpmek/tmp
$ source environment-setup-aarch64-poky-linux
$ export ROOTFS=~/imx8qxpmek-rootfs
$ export FSL_PLATFORM_NAME=Yocto
$ popd

------------------------

./ 编译 FastFourierTransform

------------------------

$ source prepare.sh
$ cd DemoApps/OpenCL/FastFourierTransform
$ FslBuild.py

------------------------

在 Yocto 编译环境中，系统会根据依赖关系自动下载所需的软件包。

4). 运行 FFT demo

./ 为了便于观察 FFT 结果，我们修改输入信号，使用单频率的正弦函数。例如以 44.1KHz 频率采样一个 1KHz 的信号，采样点数4096，并对采样结果做 FFT 变换。
https://github.com/NXPmicro/gtec-demo-framework/blob/master/DemoApps/OpenCL/FastFourierTransform/source/FastFourierTransform.cpp#L432
中的三角波修改正弦信号。

------------------------

m_Freal = m_intime[2 * i] = sin(1000 * (2 * 3.1415926) * i / 44100);
m_Fimag = m_intime[2 * i + 1] = 0;
m_outfft[2 * i] = m_outfft[2 * i + 1] = 0;

------------------------

./ 将编译好的 FastFourierTransform 和 Content 目录以及其中的 fft.cl 文件一起复制到 Coliri IMX8X上。fft.cl 是OpenCL 内核文件。执行后生成 fft_input.csv、fft_output.csv 两个文件，分别保存输入信号和FFT运算结果。

输入信号

FFT 运算结果

./ 从输出结果看，在第93点模值达到最大，该点对应的频率为44100/4096*93=1001.2Hz，即输入正弦信号的频率。

./ 下面是demo的运行日志。GPU 会根据采样点数，分解成多个蝶型运算模型，并将每个模型并行在 GPU 上执行，从而有效降低运算时间。从日志看到每个模型耗时都在1ms以内，GPU 累计耗时为0.004604 秒。但由于是并行计算，最终的时间则是小于该值。

------------------------

Compiling radix-2 FFT Program for GPU...
creating radix-2 kernels...
Creating kernel fft_radix2 0 (p=1)...
Creating kernel fft_radix2 1 (p=2)...
……
Creating kernel fft_radix2 10 (p=1024)...
Creating kernel fft_radix2 11 (p=2048)...
Setting kernel args for kernel 0 (p=1)...
Setting kernel args for kernel 1 (p=2)...
……
Setting kernel args for kernel 10 (p=1024)...
Setting kernel args for kernel 11 (p=2048)...
running kernel 0 (p=1)...
running kernel 1 (p=2)...
……
running kernel 10 (p=1024)...
running kernel 11 (p=2048)...
Kernel execution time on GPU (kernel 0): 0.000209 seconds
Kernel execution time on GPU (kernel 1): 0.000279 seconds
Kernel execution time on GPU (kernel 2): 0.000507 seconds
Kernel execution time on GPU (kernel 3): 0.000505 seconds
Kernel execution time on GPU (kernel 4): 0.000065 seconds
Kernel execution time on GPU (kernel 5): 0.000550 seconds
Kernel execution time on GPU (kernel 6): 0.000457 seconds
Kernel execution time on GPU (kernel 7): 0.000534 seconds
Kernel execution time on GPU (kernel 8): 0.000413 seconds
Kernel execution time on GPU (kernel 9): 0.000037 seconds
Kernel execution time on GPU (kernel 10): 0.000524 seconds
Kernel execution time on GPU (kernel 11): 0.000524 seconds
Total Kernel execution time on GPU: 0.004604 seconds
Successful.

------------------------

./ 在Toradex 基于NXP iMX6Q处理器的 Apalis iMX6Q 2GB IT 模块上，我们使用 FFTW 库在 CPU 上同样进行 4096 点 FFT 运算，并将 CPU 的时钟调整至最高频率进行对比。测试代码从这里下载。

运行耗时为 12.4ms。

5). 总结

Colibri iMX8X 异构多核构架包含 Cortex-A35、GC7000Lite GPU和 Cortex-M4。GPU 可以发挥其并计算的能力，除了实现 FFT 外，还可以用于图形处理运算和深度学习模型推理。通过 Cortex-M4实现实时数据采集，并由GPU完成数据处理，最后在 Cortex-A35 上的操作系统如Linux 完成数据保存、呈现和传输任务，以及用户交互。Colibri iMX8X 是边缘计算设备的理想平台。后续我们会向你展示更多 Colibri iMX8X 的应用开发。

ARM NXP iMX8X OpenCV FFT

作者： hai.qin_651820742，来源：面包板社区

链接： https://mbb.eet-china.com/blog/uid-me-1864768.html

版权声明：本文为博主原创，未经本人允许，禁止转载！

写原创有奖励！2025面包板原创奖励正在进行中

最新发表 推荐阅读 明星博主 原创博文 年度排行 博文排行博文评论 FPGA/CPLD MCU/ 嵌入式模拟电源/新能源测试测量通信智能手机处理器与DSP PCB 汽车电子消费电子智能硬件物联网软件与OS 采购与分销供应链管理工程师职场 EDA/ IP/ 设计与制造无人机机器人/ AI 医疗电子工业电子管理


 写博文

 点赞（30）

 收藏

分享到： 
 

上一篇：基于NXP iMX6 多路摄像头连接测试

下一篇：看门狗在嵌入式 Linux 中的应用

PARTNER CONTENT

换一换> 更多>

文章评论（0条评论）
登录后参与讨论

您需要登录后才可以评论登录 | 立即注册

hai.qin_651820742 明星博主

文章：181 阅读：374115 评论：36 赞：3194

www.toradex.cn

 好友  私信个人主页

www.toradex.cn

文章 181

原创 86

阅读 374115

评论 36

赞 3194

最新评论更多

说到充电桩、电动车，借此说两句，旨在探讨个人的好奇，“新”在哪儿？总说“新能源汽车实现节能减排”，就全产业链来看，矿 ...

自做自受 ... 评论博文 2025-7-12

1440万台，数字隔离器如何让充电桩告别“电 ...

优势在探究，万一不确定？风险一箩筐，克服力度大。优势6个，风险8个。怎敢入网？制造商是进是退呢？ ...

自做自受 ... 评论博文 2025-7-12

为什么LoRaWAN产品入不了网?

赞赞赞赞赞赞赞赞赞

琳评论博文 2025-7-12

智能手机存量战：vivo完全不够华为手机打？ ...

最新博文

为什么LoRaWAN产品入不了网?

普科科技PRBTEK电流互感器PK系列使用 ...

RL电路电流波形分析

资料下载

本周热帖

电子学（第二版）

基础电子电路及维修

打印机、复印机、投影仪、扫描仪和传 ...

LR电路的电流波形计算

太好了！轻松搞定DCDC电源转换电路设 ...

2025世界人工智能大会(WAIC）| Arm携 ...

浅谈超声波传感器的原理及性能指标 ...

请教个反激电源次级GND的问题 ...

【行业方案】一文了解蓝牙的测试方式 ...

锁存型霍尔IC的定义和典型应用实例 ...

最新资讯

芯语最新

可能是游戏本的未来新标准：探究“AI ...

六位半导体企业掌舵人获评2025年中国 ...

苹果COO本月卸任，继任者是印度裔 ...

2025福布斯中国最佳CEO榜单揭晓：王传 ...

拾放设备的标准化和模块化操作实例 ...

AI时代的华人打工皇帝：年薪2亿美元！ ...

【电源人必藏】从入门到精通：陪伴我 ...

EMC整改中共模电感的使用原理 ...

ROG×初音未来联名丨玩+乐园ROG新品发 ...

BW2025盛大开幕，ROG电竞显示器全员集 ...

EE直播间
更多

在线研讨会
更多

利用先进精密仪器仪表解决方案，优化研发并加快产品上市

在服务器电源中使用低压 eGaN FET 提升功率密度

安森美（onsemi）碳化硅产品的介绍和应用

探索适用于移动机器人的先进技术

热门推荐

WAIC独家议程公开！Arm携阿里云/小鹏/联想揭秘AI落地密码
免费门票：WAIC世界人工智能大会-Arm专场
揭秘：新一代半导体器件如何提升测试电源的性能
学高精度测量技术，抢华为/小米/雷柏等好礼

我要评论

 0

 30



 分享到微信

 分享到微博

 分享到QQ

 点击右上角，分享到朋友圈我知道啦

请使用浏览器分享功能我知道啦

关闭站长推荐 /5

报名：2025国际AI+IoT生态发展大会/MCU及嵌入式技术论坛

7月24日，深圳。年度 AIoT 专业盛会：深耕可穿戴、智能家居、机器人等场景的 AI 应用，链接产业链上下游资源。 MCU及嵌入式技术论坛：共同探讨MCU的最新技术、市场趋势和应用前景；国际电机驱动与控制论坛：探讨电机驱动与控制技术的最新进展及其在多个领域的应用。

正在接受预约❗Arm@2025 世界人工智能大会：定义AI计算的千亿未来 ...

全球3000亿颗芯片的生态霸主Arm，如何定义AI计算未来？世界人工智能大会（WAIC 2025）是全球 AI 领域最具影响力的行业盛会之一，Arm 作为业界领先的低功耗、高性能计算平台，在 7 月 27 日大会期间，Arm 将带来以“AI 无处不在：从云到边尽在 Arm”为主题的技术论坛，与产业生态共探 AI 未来，共创智能科技新篇章。

【2025面包板社区内容狂欢节】发帖/回帖赢25万E币！

活动时间：即日起——2025年全年（发完20万E币为止！）

E币兑换「你的愿望清单，社区来买单！」

为了把E币兑换变成更懂你们的“小确幸”，我们决定开启「社区心愿兑换」计划！简单来说：你留言想要什么礼品，直接告诉我们，我们整理后纳入兑换；

【2025第1期拆解活动】拆解——洞见电子产品设计智慧！

本期活动已结束，数据暂未统计完毕，请耐心等待。新一期活动正在准备中...

原创 基于 NXP iMX8X 测试 GPU FFT 运算

文章评论（0条评论）

原创基于 NXP iMX8X 测试 GPU FFT 运算