C++ Base64 Unicode - null bytes

本文关键字：null bytes Unicode Base64 C++ 更新时间：2023-10-16

我正在尝试base64编码unicode字符串。我遇到了问题，编码后，输出是我的字符串base64'ed然而，在整个代码的随机位置有空字节，我不知道为什么，或者如何把它们弄出来。

下面是我的Base64Encode函数:

static char Base64Digits[] =
"ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz0123456789+/";
int Base64Encode(const BYTE* pSrc, int nLenSrc, wchar_t* pDst, int nLenDst)
{
   int nLenOut= 0;
   while ( nLenSrc > 0 ) {
  if (nLenOut+4 > nLenDst) return(0); // error
  // read three source bytes (24 bits) 
  BYTE s1= pSrc[0];   // (but avoid reading past the end)
  BYTE s2= 0; if (nLenSrc>1) s2=pSrc[1]; //------ corrected, thanks to  jprichey
  BYTE s3= 0; if (nLenSrc>2) s3=pSrc[2];
  DWORD n;
  n =  s1;    // xxx1
  n <<= 8;    // xx1x
  n |= s2;    // xx12  
  n <<= 8;    // x12x
  n |= s3;    // x123  
  //-------------- get four 6-bit values for lookups
  BYTE m4= n & 0x3f;  n >>= 6;
  BYTE m3= n & 0x3f;  n >>= 6;
  BYTE m2= n & 0x3f;  n >>= 6;
  BYTE m1= n & 0x3f;  
  //------------------ lookup the right digits for output
  BYTE b1 = Base64Digits[m1];
  BYTE b2 = Base64Digits[m2];
  BYTE b3 = Base64Digits[m3];
  BYTE b4 = Base64Digits[m4];
  //--------- end of input handling
  *pDst++ = b1;
  *pDst++ = b2;
  if ( nLenSrc >= 3 ) {  // 24 src bits left to encode, output xxxx
     *pDst++ = b3;
     *pDst++ = b4;
  }
  if ( nLenSrc == 2 ) {  // 16 src bits left to encode, output xxx=
     *pDst++ = b3;
     *pDst++ = '=';
     }
  if ( nLenSrc == 1 ) {  // 8 src bits left to encode, output xx==
     *pDst++ = '=';
     *pDst++ = '=';
  }
  pSrc    += 3;
  nLenSrc -= 3;
  nLenOut += 4;
 }
 // Could optionally append a NULL byte like so:
 // *pDst++= 0; nLenOut++;
 return( nLenOut );  
}

不是为了愚弄别人，我从这里复制了这个函数

下面是我如何调用这个函数:

wchar_t base64[256];
Base64Encode((const unsigned char *)UserLoginHash, lstrlenW(UserLoginHash) * 2, base64, 256);

那么，为什么在生成的哈希中有随机的空字节或"空白"?我应该做些什么改变才能摆脱它们?

试试这样做。从我自己的base64编码器复制的部分:

static const wchar_t *Base64Digits = L"ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz0123456789+/";
int Base64Encode(const BYTE* pSrc, int nLenSrc, wchar_t* pDst, int nLenDst)
{
    int nLenOut = 0;
    while (nLenSrc > 0) {
        if (nLenDst < 4) return(0); // error
        // read up to three source bytes (24 bits) 
        int len = 0;
        BYTE s1 = pSrc[len++];
        BYTE s2 = (nLenSrc > 1) ? pSrc[len++] : 0
        BYTE s3 = (nLenSrc > 2) ? pSrc[len++] : 0;
        pSrc += len;
        nLenSrc -= len;
        //------------------ lookup the right digits for output
        pDst[0] = Base64Digits[(s1 >> 2) & 0x3F];
        pDst[1] = Base64Digits[(((s1 & 0x3) << 4) | ((s2 >> 4) & 0xF)) & 0x3F];
        pDst[2] = Base64Digits[(((s2 & 0xF) << 2) | ((s3 >> 6) & 0x3)) & 0x3F];
        pDst[3] = Base64Digits[s3 & 0x3F];
        //--------- end of input handling
        if (len < 3) {  // less than 24 src bits encoded, pad with '='
          pDst[3] = L'=';
          if (len == 1)
            pDst[2] = L'=';
        }
        nLenOut += 4;
        pDst += 4;
        nLenDst -= 4;
    }
    if (nLenDst > 0) *pDst = 0;
    return (nLenOut);
}

问题，从我所看到的，是作为编码器的工作，偶尔它是添加一个值到某个字符值，例如，让我们说U+0070 + U+0066(这只是一个例子)。在某一时刻，这些值等于空结束符()或与之相等的值，使程序在输出字符串时不会读取超过该点的内容，从而使其看起来比实际长度短。

我遇到过这个问题与我自己的编码算法之前，最好的解决方案似乎是增加更多的可变性你的算法;所以，不是只向字符串中添加字符，而是在算法的某个点上减去一些，乘以一些或异或一些。这将删除(或至少减少)在不需要null终止符的地方出现null终止符的机会。然而，这可能需要您进行一些尝试和错误，以了解哪些有效，哪些无效。