用于Linux中UTF-8文档的strtok

strtok for UTF-8 documents in Linux

本文关键字:strtok 文档 UTF-8 Linux 用于      更新时间:2023-10-16

我正在使用strtok来标记UTF-8文本。它在32位的Ubuntu中正常工作,但在64位的Ubuntu上,它不能标记一些单词,例如"bölen"。strtok认为有两个词:"b"answers"�len"。我的代码示例在下面。

我想知道如何在64位Linux中解决这个问题,为什么它能在32位Linux中正确工作?

char* str = const_cast<char*>(content.c_str());
char * tokenizedWord;
tokenizedWord = strtok(str, " !'^+%&/()=?_-*.,;:<>|´`~¨}][{#"); 

编辑1两个操作系统的区域设置相同:

LANG=en_US.UTF-8
LANGUAGE=
LC_CTYPE="en_US.UTF-8"
LC_NUMERIC="en_US.UTF-8"
LC_TIME="en_US.UTF-8"
LC_COLLATE="en_US.UTF-8"
LC_MONETARY="en_US.UTF-8"
LC_MESSAGES="en_US.UTF-8"
LC_PAPER="en_US.UTF-8"
LC_NAME="en_US.UTF-8"
LC_ADDRESS="en_US.UTF-8"
LC_TELEPHONE="en_US.UTF-8"
LC_MEASUREMENT="en_US.UTF-8"
LC_IDENTIFICATION="en_US.UTF-8"
LC_ALL=

EDIT2我正在使用以下功能初始化内容:

content = fileImport(path+ "/" + fileName);

string fileImport(string filePath) {
string line, content;
ifstream myfile(filePath.c_str());
if (myfile.is_open()) {
    while (myfile.good()) {
        getline(myfile, line);
        content.append(line);
    }
    myfile.close();
} else
    fprintf(stderr, "nFile is cant readn");
return content;

}

我使用了Boost Tokenizer。它工作正常。您可以从该链接中找到信息。