C++ STM32：代码的执行似乎取决于它在闪存中的位置

发布于09月25日

我注意到一种我无法解释的行为:函数的执行时间似乎取决于它在闪存中的位置.我使用的是STM32F746NGH微控制器(基于ARM-CORCEL M7)和STM32CubeIDE(GCC针对ARM的编译器).

Here are my tests:个

我对SysTick计数器进行了初始化，以触发具有固定周期T=1ms的中断.在中断处理程序中，我在两个线程之间切换(就像RTOS一样):让我们将它们命名为Thread1和Thread2.

每个线程只是递增一个变量.

以下是这两个线程的代码:


uint32_t ctr1, ctr2;

void thread1(void)
{
    while(1)
    {
        ctr1++;
    }
}


void thread2(void)
{
    while(1)
    {
        ctr2++;
    }
}

在监控这些变量时，我注意到ctr2的增量比ctr1快得多.

使用此代码:线程1的S地址为0x08000418，线程2的S的地址为0x0800042C.

Then, I tried to put another function in memory before thread1: let's name it thread0.个

所以我的新代码是:


uint32_t ctr0, ctr1, ctr2;


void thread0(void)
{
    while(1)
    {
        ctr0++;
    }
}

void thread1(void)
    {
    while(1)
    {
        ctr1++;
    }
}


void thread2(void)
{
    while(1)
    {
        ctr2++;
    }
}

使用这个新代码:线程0‘S地址是0x08000418(带有先前代码的线程1’S位置)，线程1‘S地址是0x0800042C(带有先前代码的线程2’S位置)，并且线程2‘S地址是0x08000440.

我可以看到，ctr1和ctr2以相同的速率递增，而ctr0的递增速度比这两个慢得多.

Finally, I've tried with 20 different threads.每个线程递增一个变量(类似于上面共享的代码).我观察到变量以两种不同的速率递增:Speed1和Speed2；Speed1低于Speed2.

Thread	Address	Speed
Thread0	0x08000418	speed1
Thread1	0x0800042C	speed2
Thread2	0x08000440	speed2
Thread3	0x08000454	speed1
Thread4	0x08000468	speed2
Thread5	0x0800047C	speed2
Thread6	0x08000490	speed2
Thread7	0x080004A4	speed2
Thread8	0x080004B8	speed1
Thread9	0x080004CC	speed2
Thread10	0x080004E0	speed2
Thread11	0x080004F4	speed1
Thread12	0x08000508	speed2
Thread13	0x0800051C	speed2
Thread14	0x08000530	speed2
Thread15	0x08000544	speed2
Thread16	0x08000558	speed1
Thread17	0x0800056C	speed2
Thread18	0x08000580	speed2
Thread19	0x08000594	speed1

我还签入了程序集中，所有线程都有类似的代码(相同的代码大小、相同的指令和相同数量的指令)；因此它与代码本身无关. 每个线程有10条指令，因此代码大小为20字节(每条指令的宽度为2字节).它对应于每个线程的内存地址之间的增量(20=0x14).

Here is the code of a thread (as said, other threads have a similar code):个

task0:
08000418:   push    {r7}
0800041a:   add     r7, sp, #0
 21             task0_ctr += 1;
0800041c:   ldr     r3, [pc, #8]    ; (0x8000428 <task0+16>)
0800041e:   ldr     r3, [r3, #0]
08000420:   adds    r3, #1
08000422:   ldr     r2, [pc, #4]    ; (0x8000428 <task0+16>)
08000424:   str     r3, [r2, #0]
08000426:   b.n     0x800041c <task0+4>
08000428:   movs    r4, r3
0800042a:   movs    r0, #0

正如您在表中看到的，似乎有一种模式:一个线程的速度为1，两个线程的速度为2，一个线程的速度为1，4个线程的速度为2，然后重新启动模式.

I don't know if it is relevant/related, but in the Cortex M7 reference manual, I've found this section about the flash memory:个

指令预取每个闪存读取操作提供256位，代表32位至16位的8条指令 16位指令按程序启动.因此，在顺序代码的情况下，在执行先前的指令行读取需要至少8个CPU周期.预取允许读取闪存中顺序的下一行指令，而当前指令行是由CPU请求的.预取可以通过设置 FLASH_ACR寄存器的PRFTEN位.如果至少有一个等待状态是需要访问闪存.当代码不是顺序的(分支)时，指令可以既不存在于当前使用的指令行中，也不存在于预取指令中排队.在这种情况下(未命中)，周期数方面的惩罚至少等于等待状态数. 自适应实时存储器

但我已经查看了表:256位块中完全包含的函数可以具有Speed1或Speed2，对于两个256位块之间共享的函数也可以具有相同的值.

我不明白这一行为的原因可能是什么.

EDIT 1:应请求，以下是线程调度器代码:

__attribute__((naked)) void SysTick_Handler(void)
{
    __asm("CPSID I");           // disable global interrupts, equivalent to __disable_irq();


    /* save current thread's context: save R4, R5, ..., R11 (xPSR, PC, LR, R12, R3, R2, R1, R0 are automatically pushed on the stack by the processor). */
    __asm("PUSH {R4-R11}");


    /* OS_Tick += 1 */
    __asm("LDR R0, =OS_Tick");      // R0 = &OS_Tick
    __asm("LDR R1, [R0]");          // R1 = OS_Tick
    __asm("ADD R1, #1");            // R1 += 1
    __asm("STR R1, [R0]");          // OS_Tick = 1;

    /* Systick_Tick += 1 */
    __asm("LDR R0, =Systick_Tick");     // R0 = &Systick_Tick
    __asm("LDR R1, [R0]");              // R1 = Systick_Tick
    __asm("ADD R1, #1");                // R1 += 1
    __asm("STR R1, [R0]");              // Systick_Tick = 1;



    /* Scheduler: switch thread */
    __asm("LDR R0, =os_kernel_threads_list");       // R0 = &os_kernel_threads_list
    __asm("LDR R1, [R0]");                          // R1 = current_thread
    __asm("STR SP, [R1,#4]");                       // stack_ptr = SP
    __asm("LDR R2, [R1]");                          // R2 = next_tcb
    __asm("STR R2, [R0]");                          // current_thread = next_tcb (new thread)
    __asm("LDR SP, [R2,#4]");                       // SP = stack_ptr (new thread)
    __asm("POP {R4-R11}");                          // restore context (new thread)


    __asm("CPSIE I");           // enable global interrupts, equivalent to __enable_irq();


    /* return from interrupt */
    __asm("BX LR");
}

Os_tick和sytick_tick是两个uint32_t变量. OS_KERNEL_THREADS_LIST是tcb_list变量，如下所示:

/*
 * Thread Control Block (TCB) structure
 */
typedef struct tcb_
{
    struct tcb_ *next_tcb;                      // linked-list, pointer to the next thread
    int32_t *stack_ptr;                         // pointer to the top of the thread's stack (next item to pop / last value stacked)
    int32_t stack[THREAD_STACK_SIZE];           // thread's stack
} tcb_struct;


/*
 * Circular linked-list of threads.
 */
typedef struct
{
    tcb_struct *current_thread;                 // pointer to the current running thread
    tcb_struct threads[N_MAX_THREADS];          // array of threads
    int n_threads;                              // number of threads created
} tcb_list;

线程存储在数组中，并以循环链接列表的方式连接.

EDIT2:附加信息:以下是我的时钟设置:

锁相源:晶体振荡器@25 MHz

SYSCLK=PLL_CLK=216 MHz

闪存等待状态=7WS，如STM32数据手册中所建议.

.balign 0x100 /* r0 count */ /* r1 timer address */ .thumb_func .globl TEST TEST: push {r4,r5} ldr r4,[r1] loop: sub r0,#1 bne loop ldr r5,[r1] sub r0,r4,r5 pop {r4,r5} bx lr nop nop nop nop

08000100 <TEST>: 8000100: b430 push {r4, r5} 8000102: 680c ldr r4, [r1, #0] ra=TEST(0x1000,STK_CVR); hexstring(ra&0x00FFFFFF); ra=TEST(0x1000,STK_CVR); hexstring(ra&0x00FFFFFF); ra=TEST(0x1000,STK_CVR); hexstring(ra&0x00FFFFFF); ra=TEST(0x1000,STK_CVR); hexstring(ra&0x00FFFFFF); 00001029 00001006 00001006 00001006

00000000 00004003 00000000 00004003 00000000 00004003 00000000 00004003 00000001 00005002 00000001 00005002 00000001 00005002 00000001 00005002 00000002 00004003 00000002 00004003 00000002 00004003 00000002 00004003 00000003 00004003 00000003 00004003 00000003 00004003 00000003 00004003 00000004 00004003 00000004 00004003 00000004 00004003 00000004 00004003 00000005 00005002 00000005 00005002 00000005 00005002 00000005 00005002 00000006 00004003 00000006 00004003 00000006 00004003 00000006 00004003 00000007 00004003 00000007 00004003 00000007 00004003 00000007 00004003

00200100 <TEST>: 200100: b430 push {r4, r5} 200102: 680c ldr r4, [r1, #0] 00200104 <loop>: 200104: 3801 subs r0, #1 200106: d1fd bne.n 200104 <loop>

00200100 <TEST>: 200100: b430 push {r4, r5} 200102: 680c ldr r4, [r1, #0] 00200104 <loop>: 200104: 46c0 nop ; (mov r8, r8) 200106: 3801 subs r0, #1 200108: d1fc bne.n 200104 <loop>

00000000 00005002 00000000 00005002 00000000 00005002 00000001 00005002 00000001 00005002 00000001 00005002 00000001 00005002 00000002 00005002 00000002 00005002 00000002 00005002 00000002 00005002 00000003 00005002 00000003 00005002 00000003 00005002 00000003 00005002 00000004 00005002 00000004 00005002 00000004 00005002 00000004 00005002 00000005 00005002 00000005 00005002 00000005 00005002 00000005 00005002 00000006 00005002 00000006 00005002 00000006 00005002 00000006 00005002 00000007 00005002 00000007 00005002 00000007 00005002 00000007 00005002

00000000 00005003 00000000 00005003 00000000 00005003 00000000 00005003 00000001 00006002 00000001 00006002 00000001 00006002 00000001 00006002 00000002 00005003 00000002 00005003 00000002 00005003 00000002 00005003 00000003 00005003 00000003 00005003 00000003 00005003 00000003 00005003 00000004 00005003 00000004 00005003 00000004 00005003 00000004 00005003 00000005 00006002 00000005 00006002 00000005 00006002 00000005 00006002 00000006 00005003 00000006 00005003 00000006 00005003 00000006 00005003 00000007 00005003 00000007 00005003 00000007 00005003 00000007 00005003

00200100 <TEST>: 200100: b430 push {r4, r5} 200102: 680c ldr r4, [r1, #0] 00200104 <loop>: 200104: 3801 subs r0, #1 200106: d1fd bne.n 200104 <loop>

C++ STM32：代码的执行似乎取决于它在闪存中的位置

推荐答案

C++相关问答推荐

生成C代码时自动复制/生成' tmwtypes.h '依赖项

常数函数指针优化

如何将不同长度的位转换成字节数组？

如何判断宏参数是否为C语言中的整型文字

特定闪存扇区的内存别名

变量>；-1如何在C中准确求值？

如何调试LD_PRELOAD库中的构造函数？

当我更改编译优化时，相同的C代码以不同的方式运行

C语言编译阶段与翻译阶段的关系

二进制计算器与gmp

C中函数类型的前向声明

我的程序在收到SIGUSR1信号以从PAUSE()继续程序时总是崩溃()

判断X宏的空性

错误Cygwin_Except：：Open_stackdupfile：正在转储堆栈跟踪是什么？

这个计算C中阶乘的函数正确吗？

<；unistd.h>；和<；sys/unistd.h>；之间有什么区别？

如何将另一个数组添加到集合中，特别是字符串？

C语言中浮点数的取整方式浮点数尾数超过23位时如何取整剩余部分

Fscanf打印除退出C代码为1的程序外的所有内容

窗口消息处理函数以某种方式更改了应保持不变的 int 变量的值