如何获取 json 文件的字符编码类型

How to get the character coding type of a json file?

本文关键字:文件 字符 编码 类型 json 何获取 获取      更新时间:2023-10-16

我要从jsoncpp获取json字符串的字符编码类型:UTF-8,ANSI还是UNICODE?如何获取 json::value 的字符编码类型?提前感谢!

任何字符串都只是一个字节序列,可能符合一些基本规则(空终止符、json 禁止的符号等)。没有神奇的方法来确定使用哪种编码来形成字符串,因为编码只是表示字符串二进制数据的一种方法。因此,json 字符串编码应该由 json 颁发者指定(也许在文档中),或者有关它的信息应该是 json 的一部分(如果由于某种原因不同的字符串具有不同的编码)。

确定字符串的字符编码非常复杂。请参阅此SO答案以选择正确的应用程序。

Apache Tika - 内容分析工具包可能是最先进的工具包之一,根据以下引用:

Apache Tika™ 工具包从一千多种不同的文件类型(如 PPT、XLS 和 PDF)中检测并提取元数据和文本。所有这些文件类型都可以通过单个界面进行解析,使 Tika 可用于搜索引擎索引、内容分析、翻译等等。您可以在下载页面上找到最新版本。

可以使用这些库中的每一个来分析 JSON 字符串,从而生成一个(可能的)可用于进一步处理的 CharSet。