按照c++读取文本文件的编码
C++ read text file in accordance with the encoding
我知道文件编码很难确定。但是在c++中有解决这个问题的方法吗?(我没有找到合适的).
我需要确定文件的编码,并将其第一行读取为适当区域设置的字符串。
我怀疑有没有什么像样的解决办法。我会尽力解释的。只有当您或多或少知道编码应该在文件中时,才能定义编码。然后,您可以尝试猜测转换文件不同,并检查结果是否像您预期的那样。以俄语编码表为例。你有所有类型的变化,如KOI-8, CP1251, CP866,这不是结束=)。所有这些编码对俄罗斯符号都有不同的映射,所以如果你拿一个文本文件并阅读它,考虑错误的编码而不是正确的数据,你将得到由完全不同的字母组成的单词,尽管单词/空格和较低的ASCII表部分看起来绝对没问题。
关于UTF8/16等,您无法检测到它,但您可以检查输入文件内部没有非法序列,因此您可以尝试使用某些编码来处理它。
我认为最好的选择是首先尝试定义你计划检测的编码子集,并根据一定的标准设计检测算法。
相关文章:
- 如何确定我已使用非编码文件到达 EOF?
- 如何将不同的可执行文件合并到一个窗口框架中进行编码?像浏览器一样
- 使用文件内容作为硬编码字符串
- C++和带有国家符号的文件路径(也许用 UTF8 编码)
- 当我在 CLion 中读取数组中的 txt 文件时C++编码问题
- 从文件中读取文本时出现编码问题
- 编码大于原始文本:如何获取零和一的字符串并将它们作为实际字节写入文件
- 如何使jse文件执行编码.exe并静默添加启动?Javascript将文件添加到启动?
- 这些PGM文件是如何编码的?
- 算术编码FPAQ0(一个简单的订单-0算术文件压缩机)
- 将 JPG 编码数组从 ROS sensor_msgs/压缩图像保存到 roscpp 中的文件
- 为什么我在有关文件编码格式的QT代码中获得了混乱的代码
- BASE64图像文件用C 编码
- 从编码域中的 MPEG 文件中读取元数据
- C 在使用UCS-2 LE编码的文件中搜索短语
- 如何使用Imebra库将压缩像素(用我自己的编码器压缩)回到DICOM图像文件中
- 管理代码中的硬编码文件路径/名称
- 需要说明如何使用 C++ 在 Linux 上创建 utf-8 编码文件
- 使用ICU(ICU4C)读取UTF-8编码文件的缓冲区大小
- 编译eAccelerator解码PHP编码文件