如何在音轨中找到无声部分

How to find silent parts in audio track

本文关键字：无声部音轨更新时间：2023-10-16

我有以下代码将来自wav文件的原始音频数据存储在字节缓冲区中：

BYTE header[74];
fread(&header, sizeof(BYTE), 74, inputFile);
BYTE * sound_buffer;
DWORD data_size;
fread(&data_size, sizeof(DWORD), 1, inputFile);
sound_buffer = (BYTE *)malloc(sizeof(BYTE) * data_size);
fread(sound_buffer, sizeof(BYTE), data_size, inputFile);

是否有任何算法可以确定音轨何时静音（实际上没有声音）以及何时有一些声级？

好吧，你的"声音"将是一个值数组，无论是整数还是实数 - 取决于你的格式。

为了使文件静音或"没有声音"，该数组中的值必须为零，或非常接近零，或最坏的情况 - 如果音频有偏差 - 该值将保持不变，而不是波动产生声波。

您可以编写一个简单的函数来返回范围的增量，换句话说，最大值和最小值之间的差异，增量越低，音量越低。

或者，您可以编写一个函数，返回增量低于给定阈值的范围。

为了玩弄，我写了一个漂亮的类：

template<typename T>
class SilenceFinder {
public:
  SilenceFinder(T * data, uint size, uint samples) : sBegin(0), d(data), s(size), samp(samples), status(Undefined) {}
  std::vector<std::pair<uint, uint>> find(const T threshold, const uint window) {
    auto r = findSilence(d, s, threshold, window);
    regionsToTime(r);
    return r;
  }
private:
  enum Status {
    Silent, Loud, Undefined
  };
  void toggleSilence(Status st, uint pos, std::vector<std::pair<uint, uint>> & res) {
    if (st == Silent) {
        if (status != Silent) sBegin = pos;
        status = Silent;
      }
    else {
        if (status == Silent) res.push_back(std::pair<uint, uint>(sBegin, pos));
        status = Loud;
      }
  }
  void end(Status st, uint pos, std::vector<std::pair<uint, uint>> & res) {
    if ((status == Silent) && (st == Silent)) res.push_back(std::pair<uint, uint>(sBegin, pos));
  }
  static T delta(T * data, const uint window) {
    T min = std::numeric_limits<T>::max(), max = std::numeric_limits<T>::min();
    for (uint i = 0; i < window; ++i) {
        T c = data[i];
        if (c < min) min = c;
        if (c > max) max = c;
      }
    return max - min;
  }
  std::vector<std::pair<uint, uint>> findSilence(T * data, const uint size, const T threshold, const uint win) {
    std::vector<std::pair<uint, uint>> regions;
    uint window = win;
    uint pos = 0;
    Status s = Undefined;
    while ((pos + window) <= size) {
        if (delta(data + pos, window) < threshold) s = Silent;
        else s = Loud;
        toggleSilence(s, pos, regions);
        pos += window;
      }
    if (delta(data + pos, size - pos) < threshold) s = Silent;
    else s = Loud;
    end(s, pos, regions);
    return regions;
  }
  void regionsToTime(std::vector<std::pair<uint, uint>> & regions) {
    for (auto & r : regions) {
        r.first /= samp;
        r.second /= samp;
      }
  }
  T * d;
  uint sBegin, s, samp;
  Status status;
};

我还没有真正测试过它，但看起来它应该可以工作。但是，它假定单个音频通道，您必须扩展它才能使用和跨多通道音频。以下是您的使用方式：

SilenceFinder<audioDataType> finder(audioDataPtr, sizeOfData, sampleRate);
auto res = finder.find(threshold, scanWindow);
// and output the silent regions
for (auto r : res) std::cout << r.first << " " << r.second << std::endl;

还要注意的是，现在的实现方式，"切入"到静默区域会非常突然，这种"噪声门"类型的文件管理器通常带有攻击和释放参数，这会平滑结果。例如，可能有 5 秒的静音，中间只有一个很小的爆裂声，没有攻击和释放参数，你会得到 5 分钟一分为二，并且爆裂声实际上会保留，但使用这些你可以实现不同的灵敏度何时切断它。

要检查 t1 和 t2 之间的磁道部分是否为"静默"，请计算 t1 和 t2 之间样本的均方根（RMS）。然后，只需检查 RMS 是否<=到您确定构成"静音"的某个阈值。见 http://en.wikipedia.org/wiki/Root_mean_square