C++ 在C中将通用字符名称转换为UTF8

发布于02月20日

我需要将通用字符名称(UCN)数据从数据库转换为UTF-8.看似微不足道，但我花了几个小时阅读有关Unicode、UTF-8、宽字符串等方面的内容.没有任何结果.

例如，需要将以下字符串从D\u00c3\u00bcsseldorf转换为Düsseldorf.

我try 了什么:

char str[] = "\u00c3\u00bc"; // corresponds to ü
size_t str_len = strlen(str);
for (i = 0; i < str_len; i++)
    printf("%02hhx ", str[i]);
printf("- %zu - %s\n", str_len, str); // prints "c3 83 c2 bc - 4 - Ã¼"

c3 is correct, but the next 3 bytes are unexpected.
The compiler only considers the first part of the UCN (\u00c3).

wchar_t wcs[] = L"\u00c3\u00bc";
size_t wcs_len = wcslen(wcs);
for (i = 0; i < wcs_len; i++)
    printf("%02hhx ", wcs[i]);
printf("- %zu - %ls\n", wcs_len, wcs); // prints "c3 bc - 2 - Ã¼"

Looks better.
The entire UCN is considered (c3 bc), but still no ü.

char str[] = "\xc3\xbc";
size_t str_len = strlen(str);
for (i = 0; i < str_len; i++)
    printf("%02hhx ", str[i]);
printf("- %zu %s\n", str_len, str); // prints "c3 bc - 2 ü"

这会打印ü，但我将str从UCN修改为十六进制代码.

从\u00c3\u00bc分到ü分，我错过了什么？

$ uni print c3 bc CPoint Dec UTF8 HTML Name (Cat) '¼' U+00BC 188 c2 bc ¼ VULGAR FRACTION ONE QUARTER (Other_Number) 'Ã' U+00C3 195 c3 83 Ã LATIN CAPITAL LETTER A WITH TILDE (Uppercase_Letter) $ uni id ü CPoint Dec UTF8 HTML Name (Cat) 'ü' U+00FC 252 c3 bc ü LATIN SMALL LETTER U WITH DIAERESIS (Lowercase_Letter)

C++ 在C中将通用字符名称转换为UTF8

推荐答案

C++相关问答推荐

为什么静态说明符为内联函数生成外部定义？

无效使用未定义类型'structsquare'？

为什么删除CAP_DAC_OVERRIDE后创建文件失败？

有没有可能我不能打印？(C，流程)

在C23中使用_GENERIC实现带有右值的IS_POINTER(P)？

Linux不想运行编译后的文件

在Rust和C之间使用ffi时如何通过 struct 中的[U8；1]成员传递指针

防止C++中递归函数使用堆栈内存

用C++实现余弦函数

无法访问共享目标文件内的共享指针

按长度对argv中的单词进行排序

C语言中MPI发送接收字符串时出现的分段错误

将回调/基于事件的C API转换为非回调API

使用正则表达式获取字符串中标记的开始和结束

如何编写postgresql支持函数

C程序printf在getchar while循环后不工作

C中2个数字的加法 - 简单的人类方法

GDB 跳过动态加载器代码

使用复合文字数组初始化的指针数组

OpenGL 中的非渐变 colored颜色变化