C++ 为什么 __m128 在与 float xyz 的联合中导致对齐问题

发布于06月03日

我以前从来没有遇到过这个问题，至少我没有意识到...但是在我的一些代码中，我正在进行一些SIMD向量优化，并且我遇到了一些对齐问题.

以下是我在MSVC(Visual Studio 2022)上能够重现该问题的一些最小代码:

#include <stdio.h>
#include <stdint.h>
#include <stdbool.h>
#include <stdlib.h>
#include <string.h>
#include <xmmintrin.h>

_declspec(align(16)) typedef union
{
    struct { float x, y, z; };

#if 0
    // This works:
    float v[4];
#else
    // This does not:
    __m128 v;
#endif
} vec;

typedef struct
{
    vec pos;
    vec vel;
    float radius;
} particle;

int main(int argc, char **argv)
{
    particle *particles=malloc(sizeof(particle)*10);

    if(particles==NULL)
        return -1;

    // intentionally misalign the pointer
    ((uint8_t *)particles)+=3;

    printf("misalignment: %lld\n", (uintptr_t)particles%16);

    particles[0].pos=(vec){ 1.0f, 2.0f, 3.0f };
    particles[0].vel=(vec){ 4.0f, 5.0f, 6.0f };

    printf("pos: %f %f %f\nvel: %f %f %f\n",
           particles[0].pos.x, particles[0].pos.y, particles[0].pos.z,
           particles[0].vel.x, particles[0].vel.y, particles[0].vel.z);

    return 0;
}

我不明白为什么浮点型x/y/z和浮点型[4]的并集与未对齐的内存地址一起工作，但是浮点型x/y/z和__m128的并集会产生访问冲突. 我知道__m128类型上有一些额外的对齐规范，但总体联合大小没有变化，而且它也是16字节对齐的，所以这有什么关系呢？

我确实理解内存对齐的重要性，但更奇怪的是，我在分配令人不快的未对齐内存的代码中添加了aligned_malloc(我在代码中使用了片/区域内存分配器)，但它仍然因访问冲突而崩溃，这进一步加剧了我的脱发.

C++ 为什么 __m128 在与 float xyz 的联合中导致对齐问题

推荐答案

C++相关问答推荐

C中的ATONE会扰乱SEN/CLUTE GMS应用程序中的其他字符串

有效地计算由一组点构成的等边三角形和等腰三角形的数量

ATmega328P EEPROM未写入

将uintptr_t添加到指针是否对称？

#定义SSL_CONNECTION_NO_CONST

在C中包装两个数组？

C-try 将整数和 struct 数组存储到二进制文件中

Valgrind用net_pton()抱怨

c程序，让用户输入两类数字，并给出输出用户输入多少个数字

unions 的原子成员是个好主意吗？

可以'；t从A9G模块拨打电话

为什么这个代码的最后一次迭代不能正常工作？

从系统派生线程调用CRT

如何在Rust中处理C的longjmp情况？

程序打印一些随机空行

中位数和众数不正确

memcmp 是否保证按顺序比较字节？

OpenGL 中的非渐变 colored颜色变化

初始化动态分配的布尔二维数组的最佳方法是什么？

如何让 unlinkat(dir_fd, ".", AT_REMOVEDIR) 工作？