长弦原蟾蜍的奇怪行为

Strange behaviour in protobuf with long strings

本文关键字：更新时间：2023-10-16

我正在尝试将数据从客户端发送到服务器。这两个应用程序都是用java编写的。但是它们使用了一个在SWIG包装器上用c++实现的tls层。tls层期望来自客户端的字符串，将其传输到服务器端，并通知java服务器应用程序（并传递该字符串）。但是，此字符串应该包含序列化的数据。不知怎么的，我很难使用protobuf来序列化数据。我想使用一个名为ToDoListMessage的java protobuf类。protobuf看起来是这样的：

message ToDoListMessage{  
    optional string user = 1;  
    optional string token = 2;
}

但是生成的java类无法解析之前序列化的数据：

com.google.protobuf.InvalidProtocolBufferException：协议消息标记的导线类型无效。

我当前没有将数据发送到服务器。只是在客户端测试序列化和解析部分：

ToDoListMessageProto msg = ToDoListMessageProto.newBuilder().setUser("test").setToken("38632735722755").build();        
byte b [] = msg.toByteArray();  
String sMsg = Arrays.toString(b);   
System.out.println("send message = " + sMsg);
ToDoListMessageProto outputmessage;         
outputmessage = ToDoListMessageProto.parseFrom(sMsg.getBytes());

消息看起来像：

[10, 4, 116, 101, 115, 116, 18, 14, 51, 56, 54, 51, 50, 55, 51, 53, 55, 50, 50, 55, 53, 53]

我尝试了什么：

1）到目前为止，我找到的所有解决方案都说这个问题可以通过使用CodedOutputStream来解决。但是tls层期望的是字符串，而不是流。然而，我也试图遵循：

ByteArrayOutputStream bos = new ByteArrayOutputStream();
CodedOutputStream cos = CodedOutputStream.newInstance(bos);
msg.writeTo(cos);   
cos.flush();
byte b [] = msg.toByteArray();              
String sMsg = Arrays.toString(b);

但我在这个解析中得到了与上面相同的错误：

CodedInputStream cis = CodedInputStream.newInstance(sMsg.getBytes());
ToDoListMessageProto message = ToDoListMessageProto.parseFrom(cis);

2）我还尝试使用UTF8编码的字符串，而不是像这样的数组

String sMsg = new String(b);

在这种情况下，应用程序的行为更加奇怪。对于短"令牌"（例如小于129位），解析有效，但对于长令牌，解析失败：

com.google.protobuf.InvalidProtocolBufferException：解析协议消息，输入在领域这可能意味着输入被截断，或者嵌入的消息误报了自己的长度。

我真的不知道为什么。目前，令牌只包含数字。

有人知道如何从protobuf中获得可以正确解析的序列化字符串的解决方案吗？

再次强调：本次测试不涉及tls传输。目前一切都是在客户端完成的

更新：

因为我直接从Protobuf消息中获取字节数组，所以不可能传递编码。我发现消息也有一个toByteString方法，但在这个ByteString上使用toStringUtf8似乎也不起作用：

String sMsg = msg.toByteString().toStringUtf8();
System.out.println("send message = " + sMsg);
ToDoListMessageProto outputmessage;         
outputmessage = ToDoListMessageProto.parseFrom(sMsg.getBytes());

我得到了相同的错误消息（如果我使用长令牌或短令牌，则会有所不同，请参阅上文）

将java字符串转换为字节数组并返回总是需要指示要使用什么编码。如果省略此指示符，则只有7位字符（编码为"US-ASCII"，因为java7:StandardCharsets.US_ASCII）被正确转换。如果要序列化UTF-8字符串：

        String inputStr = "öäü";
        byte[] serialized = inputStr.getBytes( StandardCharsets.UTF_8);
        System.out.println( "Number of bytes: " + serialized.length);
        StringBuilder sb = new StringBuilder();
        for (byte b : serialized)
        {
            sb.append(String.format("%02X ", b));
        }
        System.out.println( "Bytes: " + sb.toString());
        String back = new String( serialized, StandardCharsets.UTF_8);
        System.out.println( "Back: " + back);

给出输出：

Number of bytes: 6
Bytes: C3 B6 C3 A4 C3 BC 
Back: öäü

我无法解决最初的问题。但我最终做的是生成Java Protobuf类，并使用它们将数据转换为byte[]。之后，我将byte[]传递给C++。在服务器端，我通过JNI将byte[]从C++TLS层发送到Java服务器应用程序。Java服务器应用程序本身再次使用Java Protobuf类将byte[]解析为对象。在我的Java源代码中没有涉及String。这是可行的，但我仍然很好奇，是否有办法解决最初的问题。

您可以使用com.google.protobuf.TextFormat，例如：

ToDoListMessageProto msg = ToDoListMessageProto.newBuilder().setUser("test").setToken("38632735722755").build();        
byte b [] = msg.toByteArray();  
String sMsg = Arrays.toString(b);   
System.out.println("send message = " + sMsg);
ToDoListMessageProto.Builder msgBuilder = ToDoListMessageProto.newBuilder();
TextFormat.getParser().merge(sMsg, msgBuilder);
ToDoListMessageProto outputmessage = msgBuilder.build();
System.out.println("received message = " + outputmessage.toString());

没有找到相关文章