如何在C++中读取WCP-1252字符

How to read WCP-1252 characters in C++?

本文关键字:读取 WCP-1252 字符 C++      更新时间:2023-10-16

我在谷歌上搜索了一下,但找不到明确的答案(也许没有使用正确的术语?)

无论如何,我有一些ANSI格式的文本文件(WCP-1252),我想在C++程序中处理这些文件的字符,但问题是我不知道如何存储与128到255的十进制代码相对应的2字节字符。不过,为了确定起见,我尝试了以下代码:

ifstream infile("textfile.txt");
char c;
infile>>c;                           //also tried infile.get(c);  
cout<<c;

不出所料,1字节的char在0x7F之后未能存储扩展集中的任何符号(我认为它只是显示了与第一个字节的值相对应的ASCII符号,并丢弃了第二个或反之亦然)。

WCP-1252用8位表示,但有些字符不是ASCII的一部分。我建议你写一个从WCP-1252到wchar_t的转换表。逐字符读取并转换为wchar_t。你可以写一张地图<uint8_t,wchar_t>。例如:

wchar_t WCP1252Towc( char ch )
{
    static map< char, wchar_t > table
    {
        {0x30, L'0' },
        {0x31, L'1' },
        // ..
        {0x39, L'9'},
        {0x40, L'A'},
        // ...
        {0x5A, L'Z'},
        {0x61, L'a'},
        // ...
        {0x7A, L'z'},
        // ...
    };
    return table[ ch ]; 
};  
wstring WCP1252sTowcs( string str )
{
    const auto len = str.size();
    wstring res( len, L'' );
    for( size_t i = 0; i < len; ++i )
        res[ i ] = WCP1252Towc( str[ i ] );
    return res;
}
ifstream infile("textfile.txt");
string line; getline( infile, line );
auto unicode = WCP1252sTowcs( line );
wcout << unicode;