什么可能导致数据包的字节顺序部分混乱?

What could cause my packet's byte order to become partially scrambled?

本文关键字:顺序部 字节 混乱 数据包 什么      更新时间:2023-10-16

我正在Linux Centos 4机器和运行Interix和Gentoo的Windows XP机器之间通过TCP套接字发送数据包。当Interix接收到数据包时,大约10%的字符始终以与数据包开头完全相同的偏移量进行乱码。在发送Linux端,数据包具有以下正确的内容:

-----BEGIN PUBLIC KEY----- 
MIIBojCCARcGByqGSM4+AgEwggEKAoGBAP//////////yQ/aoiFowjTExmKLgNwc
                                        ^   ^^^^^^^^^^^^^   
0SkCTgiKZ8x0Agu+pjsTmyJRSgh5jjQE3e+VGbPNOkMbMCsKbfJfFDdP4TVtbVHC
^^^^^^^^
ReSFtXZiXn7G9ExC6aY37WsL/1y29Aa37e44a/taiZ+lrp8kEXxLH+ZJKGZR7OZT 
gf//////////AgECAoGAf//////////kh+1RELRhGmJjMUXAbg5olIEnBEUz5joB 
Bd9THYnNkSilBDzHGgJu98qM2eadIY2YFYU2+S+KG6fwmra2qOEi8kLauzEvP2N6 
JiF00xv2tYX/rlt6A1v29xw1/a1Ez9LXT5IIviWP8ySUMyj2cynA//////////8D 
gYQAAoGAKcjWmS+h/a6xY6HfNeVBk+vU4ZQoi4ROBT8NXdiFQUeLwT/WpE/8oAxn 
KCOssVcoF54bF8JlEL0McWjQUzMrqoQedizALRRdH7kTUM/yqZZdxLgRFmiFDUXT 
XxsFFB5hlLpMqy9lqpNMN8+e5m9ISgu8zHMlTBQXsnwds0VkbeU=
-----END PUBLIC KEY-----

但是在Interix上,包的内容被稍微打乱了(但是大部分是正确的):

-----BEGIN PUBLIC KEY-----
MIIBojCCARcGByqGSM4+AgEwggEKAoGBAP//////y////iFowjTExQ/aomKLgNwc
                                        ^   ^^^^^^^^^^^^^ 
KigTCkS0Z8x0Agu+pjsTmyJRSgh5jjQE3e+VGbPNOkMbMCsKbfJfFDdP4TVtbVHC
^^^^^^^^
ReSFtXZiXn7G9ExC6aY37WsL/1y29Aa37e44a/taiZ+lrp8kEXxLH+ZJKGZR7OZT 
gf//////////AgECAoGAf//////////kh+1RELRhGmJjMUXAbg5olIEnBEUz5joB 
Bd9THYnNkSilBDzHGgJu98qM2eadIY2YFYU2+S+KG6fwmra2qOEi8kLauzEvP2N6 
JiF00xv2tYX/rlt6A1v29xw1/a1Ez9LXT5IIviWP8ySUMyj2cynA//////////8D 
gYQAAoGAKcjWmS+h/a6xY6HfNeVBk+vU4ZQoi4ROBT8NXdiFQUeLwT/WpE/8oAxn 
KCOssVcoF54bF8JlEL0McWjQUzMrqoQedizALRRdH7kTUM/yqZZdxLgRFmiFDUXT 
XxsFFB5hlLpMqy9lqpNMN8+e5m9ISgu8zHMlTBQXsnwds0VkbeU=
-----END PUBLIC KEY-----

我已经指出了与上面的^字符的区别。考虑到重复的/会隐藏在该部分中移动的其他字符,y周围可能还有更多字符。

这段代码在几个平台对之间工作得很好:

  • Linux和Linux
  • Linux和BSD
  • Linux和Cygwin

这可能是Interix和Gentoo代码中的错误吗?我用的是Windows XP, Interix v3.5。我注意到所有正确的角色都出现了,但它们的顺序总是被打乱,部分被颠倒,其他的被剪切并重新插入到不同的地方。在TCP套接字文件描述符上使用::read()在接收端读取数据包。这里有很多代码,所以我不确定哪些部分是最相关的,但如果有特定的请求,我会尝试添加更多的代码。

const int fd; // Passed in by caller.
char *buf;    // Passed in by caller.
size_t want = count; // This value is 625 for the packet in question.
// As ::read() is called, got is adjusted, until the whole packet is read.
size_t got = 0;
while (got < want) {
  // We call ::select() to ensure bytes are available before calling ::read().
  ssize_t result = ::read(fd, buf, want - got);
  if (result < 0) {
    // Handle error (not getting called, so omitted).
  } else {
    if (result != 0) {
      // We are coming in here in one try and got is set to 625, the amount we want...
      // Not an error, increment the byte counter 'got' & the read pointer,
      // buf.
      got += result;
      buf += result;
    } else { // EOF because zero result from read.
      eof = true; // Connection reset by peer.
      break;
    }
  }
}

我可以做什么实验来帮助确定错误来自哪里?

我会说你有一个'但是'的并发错误,或者可能是一个重复的free()free()之后的重用。

谜底揭晓!问题是off_t在windows XP机器上是32位宽,在Centos机器上是64位宽。当数据包发送时,它的内存布局(包括一些off_t对象)从主机按网络字节顺序(从小端到大端)放置,然后在windows机器上,当它收到数据包时,它从网络返回主机。因为内存布局不同,所以我得到了上面的混乱。

我通过在64位宽的任何地方使用我自己的soff_t来解决这个问题。

然而,我遇到了另一个问题,编译器没有在两台机器上以相同的方式打包结构,在windows上它插入4字节以使长8字节对齐,而在Centos上它没有这样做:

typedef struct Option
{
  char[56]    _otherStuff;
  int         _cpuFreq;   
  int         _bufSize;
  soff_t      _fileSize;    // Original bug fixed by forcing these 8 bytes wide.
  soff_t      _seekTo;      // Original bug fixed by forcing these 8 bytes wide.
  int         _optionBits;
  int         _padding;     // To fix next bug, I added this 4 bytes
  long long   _mtime;
  long long   _mode;
} __attribute__ ((aligned(1), packed)) Option;

我已经使用__attribute__ ((aligned(1), packed))来强制包装一致和密集,但在Windows XP上这不是或不能兑现。我通过添加_padding来解决这个问题,以强制下一个8字节成员在Centos上对齐8字节,从而与Windows XP一致。