UTF-16LE 编码问题与 Qt 文本编辑器用 C++ 编写

UTF-16LE Encoding woes with Qt text editor written in C++

本文关键字:编辑器 C++ 编写 文本编辑 文本 编码 问题 Qt UTF-16LE      更新时间:2023-10-16

所以我有一个QT文本编辑器,我已经开始创建。我从这个 http://doc.qt.io/archives/qt-5.7/gettingstartedqt.html 开始,我已经补充了它。到目前为止,我已经添加了一个适当的保存/另存为功能(链接中的版本实际上只有一个另存为功能)、一个"查找"功能和一个"打开新窗口"功能。很快,我将添加一个查找和替换功能。

我这样做主要是为了学习体验,但我最终也会添加更多功能,这些功能将专门帮助我在工作中创建 PLC 配置文件。这些配置文件可能采用许多不同的编码,但其中大多数似乎都是 UTF-16LE(无论如何根据 Emacs)。我的文本编辑器最初在阅读 UTF-16LE 时没有问题,但用纯文本编写,我需要改变这一点。

这是这些 UTF16-LE 文件之一的编码系统的 Emacs 描述中的片段。

U -- utf-16le-with-signature-dos (alias: utf-16-le-dos)
UTF-16 (little endian, with signature (BOM)).
Type: utf-16
EOL type: CRLF
This coding system encodes the following charsets:
unicode

下面是我用来在 QT 文本编辑器中对文本进行编码的代码示例。

第一。。。这类似于我之前给出的链接。这里唯一的区别是"saveFile"是我创建的全局变量,用于执行简单的"保存"函数而不是"另存为"函数。这会将文本另存为纯文本,并像一个魅力一样工作。

void findreplace::on_actionSave_triggered()
{
if (!saveFile.isEmpty())
{
QFile file(saveFile);
if (!file.open(QIODevice::WriteOnly))
{
// error message
}
else
{
QTextStream stream(&file);
stream << ui->textEdit->toPlainText();
stream.flush();
file.close();
}
}

}

下面是我的新版本,它试图将代码保存在"UTF-16LE"中。我的文本编辑器在保存文本后可以很好地阅读文本,但 Emacs 根本不会读取它。这对我来说是说配置文件可能无法被读取它的程序读取。有些事情变了,不知道是什么。

void findreplace::on_actionSave_triggered()
{
if (!saveFile.isEmpty())
{
QFile file(saveFile);
if (!file.open(QIODevice::WriteOnly))
{
// error message
}
else
{
QTextStream stream(&file);
stream << ui->textEdit->toPlainText();
stream.setCodec("UTF-16LE");
QString stream3 = stream.readAll();
//QString stream2 = stream3.setUnicode();
//QTextCodec *codec = QTextCodec::codecForName("UTF-16LE");
//QByteArray stream2 = codec->fromUnicode(stream3);
//file.write(stream3);
stream.flush();
file.close();
}
}

}

注释掉的部分我也尝试过,但他们最终将文件写成亚洲(中文或日语)字符。就像我说的,我的文本编辑器(和 Wine 中的记事本)可以很好地读取文件,但 Emacs 现在在保存后将编码描述如下。

= -- no-conversion (alias: binary)
Do no conversion.
When you visit a file with this coding, the file is read into a
unibyte buffer as is, thus each byte of a file is treated as a
character.
Type: raw-text (text with random binary characters)
EOL type: LF

这向我表明文件中的某些内容不正确。最终,此文本编辑器将用于一次创建多个文本文件,并通过用户输入修改其内容。如果我能正确进行这种编码,那就太好了。

感谢在这里评论我的帖子的好心人,我能够回答我自己的问题。这里的这段代码解决了我的问题。

void findreplace::on_actionSave_triggered()
{
if (!saveFile.isEmpty())
{
QFile file(saveFile);
if (!file.open(QIODevice::WriteOnly))
{
// error message
}
else
{
QTextStream stream(&file);
stream.setCodec("UTF-16LE");
stream.setGenerateByteOrderMark(true);
stream << ui->textEdit->toPlainText();
stream.flush();
file.close();
}
}

}

我设置了流的编解码器,然后将生成的 BOM 设置为"True"。我想我对编码有更多的了解。我认为字节顺序标记必须设置为特定值或其他值。我不知道我只需要将此值设置为"True",并且它会自行处理。Emacs 现在可以读取通过保存带有此代码的文档生成的文件,并且来自 Emacs 的编码文档是相同的。我最终会为用户添加选项,以选择他们在保存时需要的编码。很高兴我能够在这里学到一些东西。