MCU性能分析新思路
0 2023-01-20

当前的生活节奏越来越快,对计算处理器的要求也越来越高。即使是有摩尔定律的限制,人们仍然希望在单个芯片中塞入尽可能多的晶体管。尽管现在的MCU动不动就可以跑到几十上百兆,比如NXP高能效的LPC54100系列已破100MHz大关,通用型的LPC54600系列飚到210MHz,i.MX RT1050跨界处理器甚至飞到了怪兽级的600MHz,可是在当下应付图像处理和机器学习等计算大户时,仍然免不了出现“卡”的窘境。这个时候,如果能清楚地知道最消耗性能的具体函数,就有机会制定优化性能的策略。这也是圈子里常说的“profiling”(性能分析)。

有些价格相当昂贵的专业软硬件开发工具,都会提到它们有多么超强的profiling能力,这仿佛让人觉得profiling是有钱人才能玩得起,难道作为广大工程师我们就只能缩手缩脚吗?其实不然,在软件上想一点变通的办法,使用最便宜的仿真器,就完全可以在极小的开销下,做到好用够用的强大profiling利器,丑小鸭秒变金凤凰。

性能分析新思路

下面要介绍的方法的基本思想,就是密集地定期采集PC寄存器的值,从它的概率分布上估计最占CPU的函数。采集得越久,就越接近真实情况(大数定率)。

其原理是,在Cortex-M系MCU进入中断/异常时,会自动把被打断的位置(PC)存储在堆栈中。这样我们可以用汇编写一小段入口程序,读取出入栈的PC数值,作为参数传递给处理程序的C程序主体,在主体中统计PC样本的规律。只要采集了足够久的样本,在概率论的大数定理支持下,咱们就有信心估计程序中PC最常出现的位置,也就是最占CPU时间的函数。

为了贯彻这个思想,需要准备的只有:

1.工具链产生的 .map文件。无论是KEIL, IAR, GCC,在成功构建程序后,都会产生一个map文件来记录各函数和变量的位置。从采集的PC位置,查map文件判定是什么函数。

2.系统中有一个定期产生中断的时基。常见的就是SysTick定时器的周期中断,别的timer也可以。这个中断需要优先级比较高。

3.扩写定时器中断服务程序,按照前面的思路,加入这个屌丝神器。

这样,我们就可以把占CPU最多的计算型函数请到VIP区,它们与CPU有绿色快速通道,加速它们的执行。其实这个VIP区也是分等级的,从小V到大V,特权待遇相差还是明显的,小编今后再专开一文介绍不同VIP的特权。

要想让这个思路能可靠工作,还有几个关键的小坑不要踩:

1.PC最常在的位置并非一定就是最计算密集的位置。比如,程序中经常会出现等候外设寄存器的情况,CPU几万几亿遍地查看一个外设标志。这类IO忙等的代码即使放在大V区,也无济于事。

2.定时器中断的优先级不够高。如果有高优先级的中断服务程序占用了大量CPU时间,定时器中断就没有机会采集到它们,反而是在这些中断返回时定时器中断才得到服务,结果反而冤枉了被高优先级中断给打断的位置。

3.某个函数的工作频率与相位恰好和定时器中断产生“共振”,经常有机会在进入定时器中断的前夕在这个函数中,也会误以为这个函数是最占CPU时间的。这个情况一般是罕见的。

4.CPU负载比较轻,结果大量PC都采集到idle函数中。可能有小伙伴要问了,CPU都这么咸(闲)了,还淡操什么心?这个其实要以发展的眼光来看。比如,有可能随着功能集成的增加CPU终将有不堪重负的时候,或者系统负载不均匀而表现出明显的峰谷性,又可能希望让CPU尽管做完事好进低功耗模式。 

声明: 本文转载自其它媒体或授权刊载,目的在于信息传递,并不代表本站赞同其观点和对其真实性负责,如有新闻稿件和图片作品的内容、版权以及其它问题的,请联系我们及时删除。(联系我们,邮箱:evan.li@aspencore.com )
0
评论
  • 相关技术文库
  • 单片机
  • 嵌入式
  • MCU
  • STM
  • 单片机内几种数据存储手段

    单片机就是个小计算机,跳蚤虽小不但五脏惧全,有时还跳得很高呢!自然,大计算机少不得的数据存储系统,小不点的单片机一样有,而且往往和CPU集成在一起,更加显得小巧

    11小时前
  • 如何保证MCU上电后RAM的初始值唯一

    由于工作的原因,笔者经常接到工程师询问MCU内部的RAM上电之后的初始值到底是什么,有什么特性和规律。今天笔者就以设计过程中遇到的几个问题与大家做一个交流。首先

    11小时前
  • P51XAG37单片机和液晶显示器的接口设计

    0引言P51XA是PHILIPS公司的一种16位单片机,可管理的存储器空间大,运行速度快,支持实时多任务系统的增强了实现高级语言的支持,可以运用在需要复杂、高速

    昨天
  • 基于C8051F系列单片机的数据采集系统USB接口设计

    1引言随着现代工业生产和科学研究对数据采集系统的要求日益提高,传输速度、纠错能力和操作安装的简易性是人们进行采集数据时一直关注的问题,这使得数据通讯技术不可避免

    前天
  • 硬中断和软中断的区别

    概述从本质上来讲,中断是一种电信号,当设备有某种事件发生时,它就会产生中断,通过总线把电信号发送给中断控制器。如果中断的线是激活的,中断控制器就把电信号发送给处

    前天
  • STM32时钟模型和内部时钟树

    时序在数字电路中的作用,就像通信中用到的载波,载波并不起眼,但是很重要。时钟也一样,现象上只是某种频率波峰波谷跳动,一成不变。但是有了它,就像人类的历史有了时间

    前天
  • 基于LPC54101和SDK实现串口DMA接收超时的机制

    在MCU的应用中,经常需要通过串口进行不定长数据包的传输。发送方很简单,不需特别的考虑,而接收方则需要能够侦测到数据包的结束。接收方的简单做法是结合串口的IDL

    前天
  • STM32基础精华及注意事项

    一、背景如果你正为项目的处理器而进行艰难的选择:一方面抱怨16位单片机有限的指令和性能,另一方面又抱怨32位处理器的高成本和高功耗,那么,基于ARMCortex

    前天
  • 如何采用FIFO存储器实现A/D转换器与ARM的接口设计

    在高频超声波数据采集系统中,很多高速A/D转换器往往不能直接与处理器相连接,这时就需要使用FIFO在处理器与A/D转换器之间架一座桥梁,FIFO的先入先出特性可

    02-06
  • 超声波无损检测系统的A/D与ARM接口设计

    在高频超声波数据采集系统中,很多高速A/D转换器往往不能直接与处理器相连接,这时就需要使用FIFO在处理器与A/D转换器之间架一座桥梁,FIFO的先入先出特性可

    02-06
  • 单片机定时器使用过程中常见的两种问题

    在单片机的学习过程中,单片机定时器的合理设置和应用是非常关键的一步,也是刚开始接触单片机知识的新人工程师们比较容易出错误的一个环节之一。在今天的文章中,我们为大

    02-03
  • 51单片机定时器的寄存器

    标准的51单片机内部有T0和T1这两个定时器,T就是Timer的缩写,现在很多51系列单片机还会增加额外的定时器,在这里我们先讲定时器0和1。前边提到过,对于单

    02-03
下载排行榜
更多
广告