如何在C++中读取WCP-1252字符
How to read WCP-1252 characters in C++?
我在谷歌上搜索了一下,但找不到明确的答案(也许没有使用正确的术语?)
无论如何,我有一些ANSI格式的文本文件(WCP-1252),我想在C++程序中处理这些文件的字符,但问题是我不知道如何存储与128到255的十进制代码相对应的2字节字符。不过,为了确定起见,我尝试了以下代码:
ifstream infile("textfile.txt");
char c;
infile>>c; //also tried infile.get(c);
cout<<c;
不出所料,1字节的char在0x7F之后未能存储扩展集中的任何符号(我认为它只是显示了与第一个字节的值相对应的ASCII符号,并丢弃了第二个或反之亦然)。
WCP-1252用8位表示,但有些字符不是ASCII的一部分。我建议你写一个从WCP-1252到wchar_t的转换表。逐字符读取并转换为wchar_t。你可以写一张地图<uint8_t,wchar_t>。例如:
wchar_t WCP1252Towc( char ch )
{
static map< char, wchar_t > table
{
{0x30, L'0' },
{0x31, L'1' },
// ..
{0x39, L'9'},
{0x40, L'A'},
// ...
{0x5A, L'Z'},
{0x61, L'a'},
// ...
{0x7A, L'z'},
// ...
};
return table[ ch ];
};
wstring WCP1252sTowcs( string str )
{
const auto len = str.size();
wstring res( len, L' ' );
for( size_t i = 0; i < len; ++i )
res[ i ] = WCP1252Towc( str[ i ] );
return res;
}
ifstream infile("textfile.txt");
string line; getline( infile, line );
auto unicode = WCP1252sTowcs( line );
wcout << unicode;
相关文章:
- 理解boost::asio-async_read在无需读取内容时的行为
- 使用新行和不使用新行读取文件
- 读取文件并输入到矢量中
- 用c++从输入文件中读取另一行
- 读取文件的最后一行并输入到链接列表时出错
- 在进程中对同一管道进行读取和写入时C++管道出现问题
- 无法找到/读取配置文件.conf-FileIOException
- 如何使用Luacneneneba API正确读取字符串和表参数
- C++将文本文件中的数据读取到结构数组中
- 正在将csv文件读取为双精度矢量
- 为什么 sscanf 无法从一个字符串中读取uint64_t和字符?
- 为什么在读取文件大小时文件IO速度会发生变化
- 正在读取二进制文件(is_open)
- 如何在c++中从文本文件中逐行读取整数
- SSH通过/sbin/SSH无法读取RSA密钥文件(从控制台运行)
- 独立读取-修改-写入顺序
- 从文本文件中读取时钟时间和事件时间并进行处理
- 如何从文本文件中读取值和数组
- 如何将WCP 1252字符串读取为std::tstring
- 如何在C++中读取WCP-1252字符