用于Linux中UTF-8文档的strtok
strtok for UTF-8 documents in Linux
我正在使用strtok来标记UTF-8文本。它在32位的Ubuntu中正常工作,但在64位的Ubuntu上,它不能标记一些单词,例如"bölen"。strtok认为有两个词:"b"answers"�len"。我的代码示例在下面。
我想知道如何在64位Linux中解决这个问题,为什么它能在32位Linux中正确工作?
char* str = const_cast<char*>(content.c_str());
char * tokenizedWord;
tokenizedWord = strtok(str, " !'^+%&/()=?_-*.,;:<>|´`~¨}][{#");
编辑1两个操作系统的区域设置相同:
LANG=en_US.UTF-8
LANGUAGE=
LC_CTYPE="en_US.UTF-8"
LC_NUMERIC="en_US.UTF-8"
LC_TIME="en_US.UTF-8"
LC_COLLATE="en_US.UTF-8"
LC_MONETARY="en_US.UTF-8"
LC_MESSAGES="en_US.UTF-8"
LC_PAPER="en_US.UTF-8"
LC_NAME="en_US.UTF-8"
LC_ADDRESS="en_US.UTF-8"
LC_TELEPHONE="en_US.UTF-8"
LC_MEASUREMENT="en_US.UTF-8"
LC_IDENTIFICATION="en_US.UTF-8"
LC_ALL=
EDIT2我正在使用以下功能初始化内容:
content = fileImport(path+ "/" + fileName);
string fileImport(string filePath) {
string line, content;
ifstream myfile(filePath.c_str());
if (myfile.is_open()) {
while (myfile.good()) {
getline(myfile, line);
content.append(line);
}
myfile.close();
} else
fprintf(stderr, "nFile is cant readn");
return content;
}
我使用了Boost Tokenizer。它工作正常。您可以从该链接中找到信息。
相关文章:
- 正在查找文档以获得PS4平台的C++中的设备信息
- 如何在文档文件夹中创建目录
- 当Microsoft文档仅包含 C# 示例时,如何查找 C++ 包含文件名
- 通过构造函数创建一些值并尝试添加到文档中使用 rapidjson 不起作用
- 关于类的 Python 文档 - 对C++的引用不正确
- C++/autoconf 等效于文档库要求.txt的要求是什么?
- mbed:使用 USB 文档库编译会导致错误
- C++ VISUAL STUDIO:GLFWwindow没有初始化,即使它是在文档中编写的并且以前工作过
- 使用 yaml-cpp 更新 YAML 文档的节点和值
- 在加载 MSHTML 文档之前从 MSHTML 文档中删除无效的 URL
- 如何在C++中表示JSON文档的递归对象结构?
- 如何查找 Redshift Maya API 文档?
- 如何使用值模板编写文档测试用例?
- 如何使用 Gradle DSL(领域特定语言)上的文档?
- ncurses 找不到任何关于cchar_t的文档
- 提取狮身人面像文档中的C++代码片段
- 关于 API 文档和设备操作 在助手-sdk-cpp 上
- 如何搜索提升文档?
- 使用 mongo c++ 驱动程序查询嵌套的 BSON 文档
- 用于Linux中UTF-8文档的strtok