MCU跑分 CoreMark性能测试与移植
eetrendMcu 2023-03-20

什么是CoreMark


图1 CoreMark标志

CoreMark是处理器的性能基准测试,由嵌入式微处理器基准测试联盟(EEMBC)在2009年开发,为了取代过时的Dhrystone标准,ARM建议使用CoreMark而不是Dhrystone来进行基准测试。软件使用C语言编写,是一个免费使用,易于移植的基准测试程序。目前CoreMark已经成为测量与比较各类处理器性能的业界标准基准测试。CoreMark得分越高,意味着性能更高。

CoreMark的模拟工作负载主要包含几种常用的算法:

  • 矩阵操作,模拟常用的运算;

  • 链表操作,模拟指针的各种用法;

  • 状态机操作,模拟程序分支运行操作;

  • 循环冗余校验(CRC),嵌入式系统常见的功能。

CoreMark与Dhrystone对比

虽然Dhrystone的测试可以作为参考,但更容易受到其他因素的影响,CoreMark能接近实际地反应出工作能力。

进入性能测试的世界


图2 Cortex-M系列微控制器

我们在选择一款MCU时,一般会综合考虑各方面的指标,如功耗、外设丰富程度、计算性能等等。其中在我们谈论计算性能时,一般只是简单地对比一下内核主频,但这并不能直观对比出一款MCU的实际性能。相同主频的MCU,有可能性能差异要比你想象的大。而基准测试则可以很直观地对比出一款处理器的性能,不用在考虑性能时犹豫了,也可以让您发现您产品的瓶颈,优化产品的性能。在这里,我们将教您自己去移植CoreMark测试一款MCU的CoreMark性能。

CoreMark移植到一款MCU上有几步

  • 获取CoreMark源码

  • 实现平台打印输出函数

  • 修改平台相关宏定义

  • 实现计时相关函数

  • 编译与运行CoreMark

我们将使用NXP的LPC54018平台作为我们的移植案例。测试的主角LPC54018为Cortex-M4内核,180MHz工作频率,软件平台为keil。评估板使用ZLG的EasyARM-LPC54018,板载SDRAM、SPI-Flash、以太网、USB等外设。


图3 ZLG的EasyARM-LPC54018评估板

1、获取CoreMark源码

CoreMark的源码可以在CoreMark的官网或者官方GitHub代码仓库获取。

CoreMark官网:

代码仓库:github.com/eembc/coremark


图4 EEMBC官网

源码主目录下需要添加到工程的文件:

除了以上的文件,barebones文件夹下为裸机移植需要的文件:

其中core_portme两个文件为移植必须修改的文件,ee_printf.c与cvt.c是为了在裸机平台实现printf打印输出。

2、实现平台打印输出函数

在CoreMark中,最终的结果需要使用printf格式化输出函数打印出来,如果你的MCU软件平台不能使printf函数,则需要ee_printf.c与cvt.c文件,其中只需要实现一个输出单个字符的函数。当然,如果你的平台提供有printf格式化输出函数,则可以将core_portme.h中的HAS_PRINTF宏修改为1,删除ee_printf.c与cvt.c文件即可。

LPC54018的库函数中已经实现了printf输出函数,所以我们就不需要ee_printf.c与cvt.c文件了,修改宏即可。

3、修改平台相关宏定义

CoreMark是支持跨平台的基准测试程序,从Windows、Linux到单片机,当然需要一些平台相关的基础定义,这里需要根据平台灵活配置。

在core_portme.h添加 #include "board.h"添加了对size_t等类型描述符的支持,"board.h"是NXP的SDK库函数中板级引用头文件,还包含了处理器相关的内容,比如后面会用到的SysTick定时器。

在core_portme.h文件中修改编译器版本、编译选项、储存位置的宏,这个仅作为输出结果,不影响实际测试性能。

core_portme.h中修改关于main函数的定义,针对裸机main函数无参数,修改宏:

此时在你原来的工程中已经有一个main函数了,将core_main.c中的main函数名改为core_main,添加到你自己的主函数main中调用。

4、实现计时相关函数

作为一个基准测试,当然需要知道自己执行了多少时间,我们需要实现CoreMark的定时相关接口,我们选择ARM平台通用的SysTick定时器来计时。这段代码需要修改SystemCoreClock为你自己平台的MCU主频即可,SystemCoreClock是NXP的SDK中提供的获取系统时钟频率的方法,不同平台会有不同。我们在这里实现的就是配置SysTick定时器以1000Hz的频率运行,也就是1ms产生一次中断,systick_count变量每1ms加1,以供后面获取时间的函数调用。


在core_port.c中portable_init函数中添加SysTick_Init()。portable_init的本意是去初始化与你平台相关的内容,我们在这里初始化SysTick定时器。删除这里“#error…”中的内容,这只是一个移植的提示。

补充barebones_clock()时间函数的内容,并删除这里“#error…”中的内容,这里只需要返回我们的全局计数值即可,例如:

定义CLOCKS_PER_SEC,CoreMark会使用这个参数将获取的计数值转化为秒数。定义为我们定时器的计数频率:

最后一步,添加迭代次数也就是算法运行次数的宏ITERATIONS,CoreMark会使用这个宏来执行计算次数,次数越多越准确,但同时需要的时间也更久。CoreMark如果执行10秒以下则认为结果无效,可以先设为1000,后面根据运行时间灵活调整,保证运行时间大于10秒即可。可以添加到Keil的C/C 选项卡的Define中或者在core_port.c中定义。

5、编译与运行CoreMark

为了测试数据的准确,将编译优化等级调整为-O3,对运行时间进行优化,配置为release版本。我们先使用在内部RAM中运行的方式先进行测试。编译,进入Debug,运行,等待少许时间。

运行后查看串口输出的结果,如果提示运行时间少于10秒则增大ITERATIONS的值,这次测试的LPC54018调整为5000后运行时间大于10秒,查看输出结果。


图5 测试输出结果

最后的结果就是“CoreMark 1.0 : 499.300979 / GCC4.2.1 Compatible Clang 9.0.0  -O3 / STACK”,其中“GCC4.2.1 Compatible Clang 9.0.0”是Keil的编译器的宏自动生成的结果,忽略即可。

499.300979就是我们测试得到的结果了,意思就是每秒运行了多少次CoreMark的基准测试程序。


图6 ARM官方数据

不同储存介质运行速度的对比

由于我们这次测试的LPC54018JET180没有片内Flash,我们选择三种储存介质来进行速度的对比,分别是片外SPI-Flash、片外SDRAM、片内SRAM。片外SPI-Flash的型号为IS25LP064,片外SDRAM为IS42S16160J。


图7 不同储存介质运行速度对比

注:本次测试具有局限性,结果仅供参考。实际使用中由于指令缓存等的存在,速度差异不会这么明显。

可以对比出,内部SRAM运行相较于其他运行方式对速度的提升很明显,但限于内部SRAM的大小,我们一般只能将部分对速度敏感的程序放在SRAM中运行,具体方法可以查看Keil分散加载文件的使用。

编译器优化等级对比

Keil的C/C 编译器的优化等级一般有四种-O0、-O1、-O2、-O3,其中-O0几乎不优化,-O3优化到最佳的性能,-O2为默认的优化等级,平衡性能和代码占用空间。我们测试几种优化等级对代码运行效率的影响。


图8 Keil的编译器优化对比

结语

了解了CoreMark基准测试的世界后,在纠结MCU的性能时,不如跑个分试试。CoreMark可以帮助我们了解自己产品的实际性能,找到系统的瓶颈,改善我们的产品。 

声明: 本文转载自其它媒体或授权刊载,目的在于信息传递,并不代表本站赞同其观点和对其真实性负责,如有新闻稿件和图片作品的内容、版权以及其它问题的,请联系我们及时删除。(联系我们,邮箱:evan.li@aspencore.com )
0
评论
  • 【7.24 深圳】2025国际AI+IoT生态发展大会/2025全球 MCU及嵌入式技术论坛


  • 相关技术文库
  • 单片机
  • 嵌入式
  • MCU
  • STM
  • 3AT89C51单片机引脚说明及引脚图

    AT89C51是一种带4K字节闪烁可编程可擦除只读存储器的低电压,高性能CMOS8位微处理器,俗称单片机。该器件采用ATMEL高密度非易失存储器制造技术制造,与工业标准的MCS-51指令集和输出管脚相兼容。由于将多功能8位CPU...

    07-11
  • 51单片机对LCD1602液晶的驱动设计

    51单片机——LCD1602 1、1602液晶读写时序 (1)、读状态 RS=L,R/W=H,E=H。(判断忙完毕后释放总线) (2)、读数据 RS=H,R/W=H,E=H。 (3)、写指令 RS=L,R/W=L,D0~D7=指令码,E=高脉冲 (4)、写数据 RS=H,R/W=L,D0~D...

    07-11
  • 单片机串口如何接收不定长数据的?

    我们在使用其他STM32的单片机的时候,会发现有些困难,会发现常用的方法并不能用,在还没有接收完数据的时候,就解决不了。于是,只能用通用的方法来解决了。 这个通用的方法,其实原理和使用IDLE的原理一样:...

    07-11
  • ARM处理器的选型原则

    鉴于ARM微处理器的众多优点,随着国内外嵌入式应用领域的逐步发展,ARM微处理器必然会获得广泛的重视和应用。但是,由于ARM微处理器有多达十几种的内核结构,几十个芯片生产厂家,以及千变万化的内部功能配置组合,...

    07-10
  • 有哪些低功耗设计方法?单片机系统低功耗设计要点介绍

    功耗,已经是一个老生常谈的话题了。对于功耗,大家多多少少有所了解。目前,很多产品的宣传里便带有低功耗噱头。为增进大家对功耗的认识,本文将基于两点介绍功耗:1.低功耗主要设计方法,2.单片机系统低功耗设计...

    07-10
  • 8位32位MCU如何选择?如何选择合适的MCU?

    MCU,对于普通人而言,是一个高大上的存在。但是,在工业中,MCU确实常见产品。为增进大家对MCU的认识,本文将基于两点介绍MCU:1.8位MCU和32位MCU如何选择?2.如何选择合适的MCU。如果你对MCU具有兴趣,不妨继续往...

    07-09
  • ARM开发:一 ARM微处理器概述

    1.1ARM-Advanced RISC Machines ARM(Advanced RISC Machines),既可以认为是一个公司的名字,也可以认为是对一类微处理器的通称,还可以认为是一种技术的名字。 1991年ARM公司成立于英国剑桥,主要出售芯片设计技术...

    07-08
  • 分析C51单片机的一些误区和注意事项

    简介:常看见初学者要求使用_at_,这是一种谬误,把C当作ASM看待了。在C中变量的定位是编译器的事情,初学者只要定义变量和变量的作 用域,编译器就把一个固定地址给这个变量。怎么取得这个变量的地址?要用指针。 1) C...

    07-08
  • 51单片机几个延时程序

    简介:51单片机几个精确延时程序:在精确延时的计算当中,最容易让人忽略的是计算循环外的那部分延时,在对时间要求不高的场合,这部分对程序不会造成影响. 一. 500ms延时子程序(晶振12MHz,一个机器周期1us.) 程...

    07-08
  • 总结单片机软件抗干扰的几种办法

    简介:在提高硬件系统抗干扰能力的同时,软件抗干扰以其设计灵活、节省硬件资源、可靠性好越来越受到重视。下面以MCS-51单片机系统为例,对微机系统软件抗干扰方法进行研究。 1、软件抗干扰方法的研究 在工程实践中...

    07-08
  • 基于C51单片机实现汽车座椅自动控制系统的软硬件设计

    引言 随着人们生活水平的提高,对汽车座椅的舒适性要求也越来越高,要求对汽车座椅地调节能够更加简单、方便、快捷。目前,汽车座椅位置的调节多采用基于手动调节方式的机械和电动控制两种方式。汽车座椅位置的调节...

    07-02
  • MCS51单片机程序设计时堆栈的计算方法解析

    用C语言进行MCS51系列单片机程序设计是单片机开发和应用的必然趋势。Keil公司的C51编译器支持经典8051和8051派生产品的版本,通称为Cx51。应该说,Cx51是C语言在MCS51单片机上的扩展,既有C语言的共性,又有它自己...

    07-02
下载排行榜
更多
评测报告
更多
广告