cout << setw 与 åäö 正确对齐
cout << setw doesn't align correctly with åäö
以下代码再现了我的问题:
#include <iostream>
#include <iomanip>
#include <string>
void p(std::string s, int w)
{
std::cout << std::left << std::setw(w) << s;
}
int main(int argc, char const *argv[])
{
p("COL_A", 7);
p("COL_B", 7);
p("COL_C", 5);
std::cout << std::endl;
p("ABC", 7);
p("ÅÄÖ", 7);
p("ABC", 5);
std::cout << std::endl;
return 0;
}
这会产生以下输出:
COL_A COL_B COL_C
ABC ÅÄÖ ABC
如果我把代码中的"ÅõÖ"改为例如"ABC",那么它就起作用了:
COL_A COL_B COL_C
ABC ABC ABC
为什么会发生这种情况?
除了为std::wcout
注入适当的语言环境外,您可能还必须切换到宽字符串。例如:
void p(std::wstring s, int w)
{
std::wcout << std::left << std::setw(w) << s;
}
int main(int argc, char const *argv[])
{
setlocale(LC_ALL, "en_US.utf8");
std::locale loc("en_US.UTF-8");
std::wcout.imbue(loc);
p(L"COL_A", 7);
p(L"COL_B", 7);
p(L"COL_C", 5);
std::wcout << std::endl;
p(L"ABC", 7);
p(L"ÅÄÖ", 7);
p(L"ABC", 5);
std::wcout << std::endl;
return 0;
}
演示
之所以会发生这种情况,是因为这些字符(É,Ö,…)是可能以UTF-8编码的unicode字符。这意味着每个字符占用几个字节(在您的情况下为两个,在一般情况下最多为四个)。setw
OTOH不知道UTF-8——它只是计算并对齐字节。
C++20 std::format
将正确处理此
std::cout << std::format("{:7}{:7}{:5}n", "COL_A", "COL_B", "COL_C");
std::cout << std::format("{:7}{:7}{:5}n", "ABC", "ÅÄÖ", "ABC");
输出:
COL_A COL_B COL_C
ABC ÅÄÖ ABC
同时,您可以使用std::format
基于的{fmt}库。{fmt}还提供了print
函数,使其更容易、更高效(godbolt):
#include <fmt/core.h>
int main() {
fmt::print("{:7}{:7}{:5}n", "COL_A", "COL_B", "COL_C");
fmt::print("{:7}{:7}{:5}n", "ABC", "ÅÄÖ", "ABC");
}
免责声明:我是{fmt}和C++20 std::format
的作者。
问题是,您的源代码肯定存储在UTF8中,这意味着ÅõÖ的每个字母有2个字节,而cout的区域设置没有相应地设置。
因此,您的cout认为它输出3x2=6个字符,并且只添加一个空格即可达到预期的7个字符。使用imbue()更改区域设置,将其设置为UTF8。
这适用于重音拉丁字母和CJK字符:
#include <iomanip>
#include <iostream>
#include <string>
#include <wchar.h>
typedef decltype(std::setw(0)) setw_type;
setw_type
setww(int w, std::wstring s)
{
auto delta = wcswidth(s.c_str(), s.length()) - s.length();
return std::setw(w - delta);
}
void
print_wstring(std::wstring s, int w)
{
std::wcout << setww(w, s) << s;
}
int
main(int argc, char * argv[])
{
auto locale_string = "zh_CN.utf8";
setlocale(LC_ALL, locale_string);
std::locale loc(locale_string);
std::wcout.imbue(loc);
print_wstring(L"|一二三四", 9);
print_wstring(L"|一二三四", 9);
std::wcout << std::endl;
print_wstring(L"公道", 9);
print_wstring(L"自在人心", 9);
std::wcout << std::endl;
}
结果:
g++ test01.cpp -o test01.exe && ./test01.exe
|一二三四|一二三四
公道 自在人心
相关文章:
- 如何理解将半精度指针转换为无符号长指针和相关的内存对齐
- 如何创建一个QTableWidgetItem,用长文本右对齐,左边有省略号
- 我可以检测和更改 gcc/g++ 中结构的当前数据对齐设置吗?
- 64位机器上的C++内存对齐
- 为什么我可以将变量存储在不是其最小对齐方式的倍数的地址?
- 使 std::vector 分配对齐内存的现代方法
- C++ cout 将双精度对齐到精度 2 并正确对齐
- 在 64 位边界上对齐C++结构数组?
- 使用 g++7 构建的代码在访问未对齐的内存时崩溃
- 在 capnp FlatArrayMessageReader 的对齐内存缓冲区中接收 zmq 消息
- 是否值得对齐变量?
- 初始化派生结构的基部分/意外打包派生结构字段以对齐基结构的间隙
- 对齐和对齐的实际用例C++关键字
- 如何减少代码的运行时间以对齐文本?
- 指向包含对齐 C 结构C++类的 C 指针的对齐问题
- Linux C++ 中的页面对齐内存分配
- C++ 类层次结构中的"对齐"是什么意思?
- 运行时错误:引用绑定到类型"int"的未对齐地址0xbebebebebebebec6,这需要 4 个字节对齐 (stl_vector.h)
- 具有调整对齐方式的类型定义
- 对于堆上的页面对齐内存分配是否有任何优化或不同的 API?