使用C++将越南语字符从ISO88591、UTF8、UTF16BE、UTF16LE和UTF16编码为十六进制,反之亦然
Encoding Vietnamese characters from ISO88591, UTF8, UTF16BE, UTF16LE, UTF16 to Hex and vice versa using C++
我已经编辑了我的帖子。目前,我正在尝试对用户的输入字符串进行编码,然后将其转换为十六进制格式。如果它不包含任何越南字符,我可以做得很好。如果我的inputString是"Hello"。但是当我尝试输入一个字符串,比如"TôI"时,我不知道该怎么做
enum Encodings { USASCII, ISO88591, UTF8, UTF16BE, UTF16LE, UTF16, BIN, OCT, HEX };
switch (Encodings)
{
case USASCII:
ASCIIToHex(inputString, &ascii); //hello output 48656C6C6F
return new ByteField(ascii.c_str());
case ISO88591:
ASCIIToHex(inputString, &ascii);//hello output 48656C6C6F
//tôi output 54F469
return new ByteField(ascii.c_str());
case UTF8:
ASCIIToHex(inputString, &ascii);//hello output 48656C6C6F
//tôi output 54C3B469
return new ByteField(ascii.c_str());
case UTF16BE:
ToUTF16(inputString, &ascii, Encodings);//hello output 00480065006C006C006F
//tôi output 005400F40069
return new ByteField(ascii.c_str());
case UTF16:
ToUTF16(inputString, &ascii, Encodings);//hello output FEFF00480065006C006C006F
//tôi output FEFF005400F40069
return new ByteField(ascii.c_str());
case UTF16LE:
ToUTF16(inputString, &ascii, Encodings);//hello output 480065006C006C006F00
//tôi output 5400F4006900
return new ByteField(ascii.c_str());
}
void StringUtilLib::ASCIIToHex(std::string s, std::string * result)
{
int n = s.length();
for (int i = 0; i < n; i++)
{
unsigned char c = s[i];
long val = long(c);
std::string bin = "";
while (val > 0)
{
(val % 2) ? bin.push_back('1') :
bin.push_back('0');
val /= 2;
}
reverse(bin.begin(), bin.end());
result->append(ConvertBinToHex(bin));
}
}
std::string ToUTF16(std::string s, std::string * result, int encodings) {
int n = s.length();
if (encodings == UTF16) {
result->append("FEFF");
}
for (int i = 0; i < n; i++)
{
int val = int(s[i]);
std::string bin = "";
while (val > 0)
{
(val % 2) ? bin.push_back('1') :
bin.push_back('0');
val /= 2;
}
reverse(bin.begin(), bin.end());
if (encodings == UTF16 || encodings == UTF16BE) {
result->append("00" + ConvertBinToHex(bin));
}
if (encodings == UTF16LE) {
result->append(ConvertBinToHex(bin) + "00");
}
}
}
std::string ConvertBinToHex(std::string str) {
long long temp = atoll(str.c_str());
int dec_value = 0;
int base = 1;
int i = 0;
while (temp) {
int last_digit = temp % 10;
temp = temp / 10;
dec_value += last_digit * base;
base = base * 2;
}
char hexaDeciNum[10];
while (dec_value != 0)
{
int temp = 0;
temp = dec_value % 16;
if (temp < 10)
{
hexaDeciNum[i] = temp + 48;
i++;
}
else
{
hexaDeciNum[i] = temp + 55;
i++;
}
dec_value = dec_value / 16;
}
str.clear();
for (int j = i - 1; j >= 0; j--) {
str = str + hexaDeciNum[j];
}
return str;
}
这个问题完全不清楚。要对某些内容进行编码,您需要输入,对吗?所以当你说"将越南语字符编码为UTF8、UTF16">在转换为UTF-8/16之前,您的输入字符串是什么,编码是什么?你是如何输入的?从文件还是控制台?
你到底为什么要转换成二进制然后再转换成十六进制?您可以从字节直接打印到二进制和十六进制,无需从二进制转换到十六进制。请注意,像这样转换为二进制对于测试来说很好,但在生产代码中效率极低。我也不知道你说的"是什么意思;但如果我的信是";Á"或";";这是一个越南语字母,我无法理解它的价值。请连同输入/输出一起展示一个最小的、可重复的示例
但我认为您只想从源代码中的字符串文字中输出UTF编码的字节,如";Áà"。在这种情况下,它不被称为";编码字符串";但只是";输出一个字符串";
Unicode中的Á
和À
都可以用预组合字符(U+00C1和U+00C0(或组合字符(A+U+0301(表示◌́/U+0300◌É(。您可以通过选择">"在它们之间切换;Unicode dựng sẵn〃或";Unicode tổhợp〃在Unikey中。假设这些字符是字符串形式的,那么std::string str = "ÁÀ"
包含一系列字节,这些字节对应于源文件编码中的上述字母。因此,根据您将*.cpp文件保存为哪种编码(CP1252、CP1258、UTF-8…(,输出字节值将是不同的
要强制UTF-8/16/32编码,只需分别使用u8
、u
和U
后缀,以及正确的类型(char8_t
、char16_t
、char32_t
或std::u8string
/std::u16string
/std::u32string
(
std::u8string utf8 = u8"ÁÀ";
std::u16string utf16 = u"ÁÀ";
std::u32string utf32 = U"ÁÀ";
然后只需使用c_str()
获取底层缓冲区并打印字节。在C++14中,std::u8string
还不可用,所以只需将文件保存为UTF-8并使用std::string
即可。类似地,您可以直接从std::cin
读取std::u*string
,以打印用户输入字符串的编码
编辑:
要在UTF编码之间转换,请使用标准std::codecvt
、std::wstring_convert
、std::codecvt_utf8_utf16
。。。
处理非Unicode编码更为棘手,需要一些外部库,如ICU或依赖操作系统的API
Windows上的WideCharToMultiByte
和MultiByteToWideChar
iconv
限制为ISO-8859-1使其更容易,但您仍然需要许多查找表,并且无法在不丢失信息的情况下将其他编码转换为ASCII
-64是±的正确表示,如果您使用有符号的char和CP1258。如果你想要一个正数,你需要先转换成unsigned char
。
如果您确实在使用CP1258,那么您可能使用的是Windows。要将输入字符串转换为UTF-16,您可能需要使用Windows平台API,如接受代码页参数的MultiByteToWideChar
(当然,您必须使用正确的代码页(。或者,您可以尝试mbstowcs
这样的标准函数,但在使用它之前,您需要正确设置您的区域设置
您可能会发现在整个应用程序中切换到宽字符更容易,并且可以避免大多数代码转换。
顺便说一句,将整数转换为二进制只是将其转换为十六进制并不是显示整数的十六进制表示的简单或有效的方法。
- 如何确定我已使用非编码文件到达 EOF?
- 使用 MATLAB 编码器生成C++代码:编译错误"undefined reference to `rgb2gray_tbb_real64'"
- 在卡萨布兰卡形成编码参数的列表
- 使用C++进行游程编码
- 如何将不同的可执行文件合并到一个窗口框架中进行编码?像浏览器一样
- 使用已使用 java 编码的 openssl 解码数据
- boost 是否有按特殊类型值编码状态"compact optional"?
- 如何在CPP的给定目录中列出UTF编码的文件名?
- 如何使用 C++将 ISO-2022-KR 编码转换为 UTF-8 编码?
- 绝对编码器十六进制输入
- 防止C++中的硬编码数字
- 将C++ std::string 转换为 UTF-16-LE 编码的字符串
- 使用文件内容作为硬编码字符串
- 运行长度编码程序 c++ 的问题
- 以C++为单位进行运行长度编码
- 从/到 UTF-8/UTF-16 的转换需要(例如:utf8 -> 代码点,然后代码点到 utf16)或(例如:utf8 -> utf16)?
- *新的编码器*格式和运算符
- 在CRC-16 CCITT中将数据从二进制解码为文本,我应该输入一个码字,使用CRC生成器进行编码
- 使用C++将越南语字符从ISO88591、UTF8、UTF16BE、UTF16LE和UTF16编码为十六进制,反之亦然
- utf8编码算法与utf16算法