媒体基金会的音频/视频捕获到mpeg4filesink上产生不正确的持续时间

Media Foundation Audio/Video capturing to MPEG4FileSink produces incorrect duration

本文关键字：mpeg4filesink 不正确持续时间音频基金会视频媒体更新时间：2023-10-16

我正在使用Media Foundation Framework在媒体流媒体应用程序上工作。我已经使用了互联网和安东·波林格书中的一些样本。不幸的是，在将流中的流中保存到MP4文件元数据中后，文件元数据被损坏。它的持续时间不正确（例如，根据我的PC的工作时间，例如30小时），错误的比特率。经过长时间的挣扎，我将其修复了单流（视频或音频），但是当我尝试录制音频和视频时，此问题再次返回。我的拓扑问题出了问题，但我不明白什么，可能有一些专家？

我获得了音频和视频源，将其包装到IMFCollection中，通过MFCreateaggregateSource创建聚合来源。我在汇总源中为每个源创建源节点：

Com::IMFTopologyNodePtr 
TopologyBuilder::CreateSourceNode(Com::IMFStreamDescriptorPtr 
streamDescriptor)
{
    HRESULT hr = S_OK;
    Com::IMFTopologyNodePtr pNode;
    // Create the topology node, indicating that it must be a source node.
    hr = MFCreateTopologyNode(MF_TOPOLOGY_SOURCESTREAM_NODE, &pNode);
    THROW_ON_FAIL(hr, "Unable to create topology node for source");
    // Associate the node with the source by passing in a pointer to the media source,
    // and indicating that it is the source
    hr = pNode->SetUnknown(MF_TOPONODE_SOURCE, _sourceDefinition->GetMediaSource());
    THROW_ON_FAIL(hr, "Unable to set source as object for topology node");
    // Set the node presentation descriptor attribute of the node by passing
    // in a pointer to the presentation descriptor
    hr = pNode->SetUnknown(MF_TOPONODE_PRESENTATION_DESCRIPTOR, _sourceDefinition->GetPresentationDescriptor());
    THROW_ON_FAIL(hr, "Unable to set MF_TOPONODE_PRESENTATION_DESCRIPTOR to node");
    // Set the node stream descriptor attribute by passing in a pointer to the stream
    // descriptor
    hr = pNode->SetUnknown(MF_TOPONODE_STREAM_DESCRIPTOR, streamDescriptor);
    THROW_ON_FAIL(hr, "Unable to set MF_TOPONODE_STREAM_DESCRIPTOR to node");
    return pNode;
}

之后，我将每个源连接到变换（H264编码器和AAC编码），并将MPEG4Filesink：

void TopologyBuilder::CreateFileSinkOutputNode(PCWSTR filePath)
{
    HRESULT hr = S_OK;
    DWORD sink_count;
    Com::IMFByteStreamPtr byte_stream;
    Com::IMFTransformPtr transform;
    LPCWSTR lpcwstrFilePath = filePath;
    hr = MFCreateFile(
    MF_ACCESSMODE_WRITE, MF_OPENMODE_FAIL_IF_NOT_EXIST, MF_FILEFLAGS_NONE,
    lpcwstrFilePath, &byte_stream);
    THROW_ON_FAIL(hr, L"Unable to create and open file");
// Video stream
    Com::IMFMediaTypePtr in_mf_video_media_type = _sourceDefinition->GetCurrentVideoMediaType();
    Com::IMFMediaTypePtr out_mf_media_type = CreateMediaType(MFMediaType_Video, MFVideoFormat_H264);
    hr = CopyType(in_mf_video_media_type, out_mf_media_type);
    THROW_ON_FAIL(hr, L"Unable to copy type parameters");
    if (GetSubtype(in_mf_video_media_type) != MEDIASUBTYPE_H264)
    {
        transform.Attach(CreateAndInitCoderMft(MFT_CATEGORY_VIDEO_ENCODER, out_mf_media_type));
        THROW_ON_NULL(transform);
    }
    if (transform)
    {
        Com::IMFMediaTypePtr transformMediaType;
        hr = transform->GetOutputCurrentType(0, &transformMediaType);
        THROW_ON_FAIL(hr, L"Unable to get current output type");
        UINT32 pcbBlobSize = 0;
        hr = transformMediaType->GetBlobSize(MF_MT_MPEG_SEQUENCE_HEADER, &pcbBlobSize);
        THROW_ON_FAIL(hr, L"Unable to get blob size of MF_MT_MPEG_SEQUENCE_HEADER");
        std::vector<UINT8> blob(pcbBlobSize);
        hr = transformMediaType->GetBlob(MF_MT_MPEG_SEQUENCE_HEADER, &blob.front(), blob.size(), NULL);
        THROW_ON_FAIL(hr, L"Unable to get blob MF_MT_MPEG_SEQUENCE_HEADER");
        hr = out_mf_media_type->SetBlob(MF_MT_MPEG_SEQUENCE_HEADER, &blob.front(), blob.size());
        THROW_ON_FAIL(hr, L"Unable to set blob of MF_MT_MPEG_SEQUENCE_HEADER");
    }
    // Audio stream
    Com::IMFMediaTypePtr out_mf_audio_media_type;
    Com::IMFTransformPtr transformAudio;
    Com::IMFMediaTypePtr mediaTypeTmp = _sourceDefinition->GetCurrentAudioMediaType();
    Com::IMFMediaTypePtr in_mf_audio_media_type;
    if (mediaTypeTmp != NULL)
    {
        std::unique_ptr<MediaTypesFactory> factory(new MediaTypesFactory());
        if (!IsMediaTypeSupportedByAacEncoder(mediaTypeTmp))
        {
            UINT32 channels;
            hr = mediaTypeTmp->GetUINT32(MF_MT_AUDIO_NUM_CHANNELS, &channels);
            THROW_ON_FAIL(hr, L"Unable to get MF_MT_AUDIO_NUM_CHANNELS fron source media type");
            in_mf_audio_media_type = factory->CreatePCM(factory->DEFAULT_SAMPLE_RATE, channels);
        }
        else
        {
            in_mf_audio_media_type.Attach(mediaTypeTmp.Detach());
        }
        out_mf_audio_media_type = factory->CreateAAC(in_mf_audio_media_type, factory->HIGH_ENCODED_BITRATE);
        GUID subType = GetSubtype(in_mf_audio_media_type);
        if (GetSubtype(in_mf_audio_media_type) != MFAudioFormat_AAC)
        {
            // add encoder to Aac
        transformAudio.Attach(CreateAndInitCoderMft(MFT_CATEGORY_AUDIO_ENCODER, out_mf_audio_media_type));
        }
    }
    Com::IMFMediaSinkPtr pFileSink;
    hr = MFCreateMPEG4MediaSink(byte_stream, out_mf_media_type,     out_mf_audio_media_type, &pFileSink);
    THROW_ON_FAIL(hr, L"Unable to create mpeg4 media sink");
    Com::IMFTopologyNodePtr pOutputNodeVideo;
    hr = MFCreateTopologyNode(MF_TOPOLOGY_OUTPUT_NODE, &pOutputNodeVideo);
    THROW_ON_FAIL(hr, L"Unable to create output node");
    hr = pFileSink->GetStreamSinkCount(&sink_count);
    THROW_ON_FAIL(hr, L"Unable to get stream sink count from mediasink");
    if (sink_count == 0)
    {
        THROW_ON_FAIL(E_UNEXPECTED, L"Sink count should be greater than 0");
    }
    Com::IMFStreamSinkPtr stream_sink_video;
    hr = pFileSink->GetStreamSinkByIndex(0, &stream_sink_video);
    THROW_ON_FAIL(hr, L"Unable to get stream sink by index");
    hr = pOutputNodeVideo->SetObject(stream_sink_video);
    THROW_ON_FAIL(hr, L"Unable to set stream sink as output node object");
    hr = _pTopology->AddNode(pOutputNodeVideo);
    THROW_ON_FAIL(hr, L"Unable to add file sink output node");
    pOutputNodeVideo = AddEncoderIfNeed(_pTopology, transform, in_mf_video_media_type, pOutputNodeVideo);
    _outVideoNodes.push_back(pOutputNodeVideo);
    Com::IMFTopologyNodePtr pOutputNodeAudio;
    if (in_mf_audio_media_type != NULL)
    {
        hr = MFCreateTopologyNode(MF_TOPOLOGY_OUTPUT_NODE, &pOutputNodeAudio);
        THROW_ON_FAIL(hr, L"Unable to create output node");
        Com::IMFStreamSinkPtr stream_sink_audio;
        hr = pFileSink->GetStreamSinkByIndex(1, &stream_sink_audio);
        THROW_ON_FAIL(hr, L"Unable to get stream sink by index");
        hr = pOutputNodeAudio->SetObject(stream_sink_audio);
        THROW_ON_FAIL(hr, L"Unable to set stream sink as output node object");
        hr = _pTopology->AddNode(pOutputNodeAudio);
        THROW_ON_FAIL(hr, L"Unable to add file sink output node");
        if (transformAudio)
        {
            Com::IMFTopologyNodePtr outputTransformNodeAudio;
            AddTransformNode(_pTopology, transformAudio, pOutputNodeAudio, &outputTransformNodeAudio);
            _outAudioNode = outputTransformNodeAudio;
        }
        else
    {
            _outAudioNode = pOutputNodeAudio;
        }
    }
}

当将输出类型应用于音频变换时，它具有15个属性，而不是8个属性，包括MF_MT_AVG_BITRATE，该属性应符合我理解的视频。就我而言，它是192000，在视频流上的MF_MT_AVG_BITRATE不同。我的AAC媒体类型是通过这种方法创建的：

HRESULT MediaTypesFactory::CopyAudioTypeBasicAttributes(IMFMediaType * in_media_type, IMFMediaType * out_mf_media_type) {
    HRESULT hr = S_OK;
    static const GUID AUDIO_MAJORTYPE = MFMediaType_Audio;
    static const GUID AUDIO_SUBTYPE = MFAudioFormat_PCM;
    out_mf_media_type->SetUINT32(MF_MT_AUDIO_BITS_PER_SAMPLE, AUDIO_BITS_PER_SAMPLE);
    WAVEFORMATEX *in_wfx;
    UINT32 wfx_size;
    MFCreateWaveFormatExFromMFMediaType(in_media_type, &in_wfx, &wfx_size);
    hr = out_mf_media_type->SetUINT32(MF_MT_AUDIO_SAMPLES_PER_SECOND, in_wfx->nSamplesPerSec);
    DEBUG_ON_FAIL(hr);
    hr = out_mf_media_type->SetUINT32(MF_MT_AUDIO_NUM_CHANNELS, in_wfx->nChannels);
    DEBUG_ON_FAIL(hr);
    hr = out_mf_media_type->SetUINT32(MF_MT_AUDIO_AVG_BYTES_PER_SECOND, in_wfx->nAvgBytesPerSec);
    DEBUG_ON_FAIL(hr);
    hr = out_mf_media_type->SetUINT32(MF_MT_AUDIO_BLOCK_ALIGNMENT, in_wfx->nBlockAlign);
    DEBUG_ON_FAIL(hr);
    return hr;
}

如果有人可以帮助我或解释我错了的地方，那将是很棒的。谢谢。

在我的项目CaptureManager中，我面临着类似的问题 - 当我编写了用于将许多Web Cams的实时视频录制到一个文件中的代码。经过长期研究媒体基金会，我发现了两个重要事实：1.实时来源 - 网络摄像头和麦克风不会从0开始 - 根据规格样本，应从0时间邮票开始 - 实时来源 - "第一个样本应具有零的时间戳。" - 但是实时来源设置了当前系统时间。2.我从您的代码中看到您使用媒体会话 - 它是具有IMFMediaSession接口的对象。我认为您从MFCreateMediaSession函数创建它。此函数创建了会话的默认版本，该版本已针对从文件中播放媒体进行了优化，该样本默认为0。在我看来，主要问题是默认媒体会话不会从源中检查媒体样本的时间戳，因为从媒体文件开始，它们是从零或启动点开始的。但是，实时来源不是从0开始 - 它们应该或必须，但不应该。因此，我的建议 - 使用IMFTransform写课程，它将是源和编码器之间的"代理"转换 - 此"代理"转换必须从实时来源固定媒体样本的时间戳记：1。虽然它从实时源接收第一个媒体样本，但保存第一个媒体样本（例如参考时间）的实际时间戳记，并将第一个媒体样本的时间戳设置为零，所有时间戳记。该参考时间必须减去此实时源中的下一个媒体样本，并将其设置为媒体的时间戳记样品。另外，检查呼叫ImffinalizableMediasink的代码。

问候。

mp4元数据可能在某些情况下被错误地初始化（例如，像这样），但是在情况下，您描述的问题就像是有效载荷数据，而不是设置管道的方式首先。

解码器和转换器通常是通过将样品从输入到输出复制的样本的时间戳记，因此如果某些问题是错误的，它们并没有表明失败 - 您仍然具有将有意义写入文件中的输出。如果您遇到了示例时间问题，很长的录音，溢出错误ESP，那么该水槽可能会遇到问题。如果大型分子/分母表示速率。重要的是来源产生的样本时间。

您可能想尝试录制较短的录制，仅视频和音频录制可能有助于识别提供导致问题的数据的流。

此外，您可能需要检查产生的MP4文件原子/框，以确定标头框是否不正确的数据或数据本身是错误地盖章的，在哪个跟踪和确切的轨道上（尤其是启动正常），然后做一个奇怪的间隙在中间）。