Перенос аудиоданных типа pcm_alaw в аудиофайл MKA с использованием ffmpeg API

ProgramBox

Перенос аудиоданных типа pcm_alaw в аудиофайл MKA с использованием ffmpeg API

Post author:admin
Запись опубликована:27 марта, 2023
Post category:Вопросы по программированию

#c #ffmpeg #encoder

#c #ffmpeg #кодировщик

Вопрос:

Представьте, что в моем проекте я получаю RTP пакеты с полезной нагрузкой типа 8, для последующего сохранения этой нагрузки в качестве N-й части звуковой дорожки. Я извлекаю эту загрузку из RTP пакета и сохраняю ее во временном буфере:

 ...

while ((rtp = receiveRtpPackets()).withoutErrors()) {
   payloadData.push(rtp.getPayloadData());
}

audioGenerator.setPayloadData(payloadData);
audioGenerator.recordToFile();

...

После заполнения временного буфера определенного размера этой полезной нагрузкой я обрабатываю этот буфер, а именно извлекаю всю полезную нагрузку и кодирую ее с помощью ffmpeg для дальнейшего сохранения в аудиофайл в формате Matroska. Но у меня проблема. Поскольку полезная нагрузка RTP пакета является type 8 , я должен сохранить необработанные аудиоданные в формате pcm_alaw mka в,, аудиоформат. Но при сохранении необработанных данных pcm_alaw в аудиофайл я получаю эти сообщения из библиотеки:

 ...

[libopus @ 0x18eff60] Queue input is backward in time
[libopus @ 0x18eff60] Queue input is backward in time
[libopus @ 0x18eff60] Queue input is backward in time
[libopus @ 0x18eff60] Queue input is backward in time

...

Когда вы открываете аудиофайл в vlc, ничего не воспроизводится (временная метка звуковой дорожки отсутствует).

Задача моего проекта — просто взять данные pcm_alaw и упаковать их в контейнер в mka формате. Лучший способ определить кодек — использовать функцию av_guess_codec(), которая, в свою очередь, автоматически выбирает желаемый идентификатор кодека. Но как мне правильно упаковать необработанные данные в контейнер, я не знаю.

Важно отметить, что я могу получить в качестве необработанных данных любой формат этих данных (толькоаудиоформаты), определенный типом RTP пакета (все типы RTP полезной нагрузки пакета). Все, что я знаю, это то, что в любом случае я должен упаковать аудиоданные в mka контейнер.

Я также прилагаю код (заимствованный из этого ресурса), который я использую:

audiogenerater.h

 extern "C"
{
#include "libavformat/avformat.h"
#include "libavcodec/avcodec.h"
#include "libswresample/swresample.h"
}

class AudioGenerater
{
public:

    AudioGenerater();
   ~AudioGenerater() = default;

    void generateAudioFileWithOptions(
            QString        fileName,
            QByteArray     pcmData,
            int            channel,
            int            bitRate,
            int            sampleRate,
            AVSampleFormat format);
            
private:

    // init Format
    bool initFormat(QString audioFileName);

private:

    AVCodec         *m_AudioCodec        = nullptr;
    AVCodecContext  *m_AudioCodecContext = nullptr;
    AVFormatContext *m_FormatContext     = nullptr;
    AVOutputFormat  *m_OutputFormat      = nullptr;
};

audiogenerater.cpp

 AudioGenerater::AudioGenerater()
{
    av_register_all();
    avcodec_register_all();
}

AudioGenerater::~AudioGenerater()
{
    // ... 
}

bool AudioGenerater::initFormat(QString audioFileName)
{
    // Create an output Format context
    int result = avformat_alloc_output_context2(amp;m_FormatContext, nullptr, nullptr, audioFileName.toLocal8Bit().data());
    if (result < 0) {
        return false;
    }

    m_OutputFormat = m_FormatContext->oformat;

    // Create an audio stream
    AVStream* audioStream = avformat_new_stream(m_FormatContext, m_AudioCodec);
    if (audioStream == nullptr) {
        avformat_free_context(m_FormatContext);
        return false;
    }

    // Set the parameters in the stream
    audioStream->id = m_FormatContext->nb_streams - 1;
    audioStream->time_base = { 1, 8000 };
    result = avcodec_parameters_from_context(audioStream->codecpar, m_AudioCodecContext);
    if (result < 0) {
        avformat_free_context(m_FormatContext);
        return false;
    }

    // Print FormatContext information
    av_dump_format(m_FormatContext, 0, audioFileName.toLocal8Bit().data(), 1);

    // Open file IO
    if (!(m_OutputFormat->flags amp; AVFMT_NOFILE)) {
        result = avio_open(amp;m_FormatContext->pb, audioFileName.toLocal8Bit().data(), AVIO_FLAG_WRITE);
        if (result < 0) {
            avformat_free_context(m_FormatContext);
            return false;
        }
    }

    return true;
}

void AudioGenerater::generateAudioFileWithOptions(
    QString _fileName,
    QByteArray _pcmData,
    int _channel,
    int _bitRate,
    int _sampleRate,
    AVSampleFormat _format)
{
    AVFormatContext* oc;
    if (avformat_alloc_output_context2(
            amp;oc, nullptr, nullptr, _fileName.toStdString().c_str())
        < 0) {
        qDebug() << "Error in line: " << __LINE__;
        return;
    }
    if (!oc) {
        printf("Could not deduce output format from file extension: using mka.n");
        avformat_alloc_output_context2(
            amp;oc, nullptr, "mka", _fileName.toStdString().c_str());
    }
    if (!oc) {
        qDebug() << "Error in line: " << __LINE__;
        return;
    }
    AVOutputFormat* fmt = oc->oformat;
    if (fmt->audio_codec == AV_CODEC_ID_NONE) {
        qDebug() << "Error in line: " << __LINE__;
        return;
    }

    AVCodecID codecID = av_guess_codec(
        fmt, nullptr, _fileName.toStdString().c_str(), nullptr, AVMEDIA_TYPE_AUDIO);
    // Find Codec
    m_AudioCodec = avcodec_find_encoder(codecID);
    if (m_AudioCodec == nullptr) {
        qDebug() << "Error in line: " << __LINE__;
        return;
    }
    // Create an encoder context
    m_AudioCodecContext = avcodec_alloc_context3(m_AudioCodec);
    if (m_AudioCodecContext == nullptr) {
        qDebug() << "Error in line: " << __LINE__;
        return;
    }

    // Setting parameters
    m_AudioCodecContext->bit_rate = _bitRate;
    m_AudioCodecContext->sample_rate = _sampleRate;
    m_AudioCodecContext->sample_fmt = _format;
    m_AudioCodecContext->channels = _channel;

    m_AudioCodecContext->channel_layout = av_get_default_channel_layout(_channel);
    m_AudioCodecContext->flags |= AV_CODEC_FLAG_GLOBAL_HEADER;

    // Turn on the encoder
    int result = avcodec_open2(m_AudioCodecContext, m_AudioCodec, nullptr);
    if (result < 0) {
        avcodec_free_context(amp;m_AudioCodecContext);
        if (m_FormatContext != nullptr)
            avformat_free_context(m_FormatContext);
        return;
    }

    // Create a package
    if (!initFormat(_fileName)) {
        avcodec_free_context(amp;m_AudioCodecContext);
        if (m_FormatContext != nullptr)
            avformat_free_context(m_FormatContext);
        return;
    }

    // write to the file header
    result = avformat_write_header(m_FormatContext, nullptr);
    if (result < 0) {
        avcodec_free_context(amp;m_AudioCodecContext);
        if (m_FormatContext != nullptr)
            avformat_free_context(m_FormatContext);
        return;
    }

    // Create Frame
    AVFrame* frame = av_frame_alloc();
    if (frame == nullptr) {
        avcodec_free_context(amp;m_AudioCodecContext);
        if (m_FormatContext != nullptr)
            avformat_free_context(m_FormatContext);
        return;
    }

    int nb_samples = 0;
    if (m_AudioCodecContext->codec->capabilities amp; AV_CODEC_CAP_VARIABLE_FRAME_SIZE) {
        nb_samples = 10000;
    }
    else {
        nb_samples = m_AudioCodecContext->frame_size;
    }

    // Set the parameters of the Frame
    frame->nb_samples = nb_samples;
    frame->format = m_AudioCodecContext->sample_fmt;
    frame->channel_layout = m_AudioCodecContext->channel_layout;

    // Apply for data memory
    result = av_frame_get_buffer(frame, 0);
    if (result < 0) {
        av_frame_free(amp;frame);
        {
            avcodec_free_context(amp;m_AudioCodecContext);
            if (m_FormatContext != nullptr)
                avformat_free_context(m_FormatContext);
            return;
        }
    }

    // Set the Frame to be writable
    result = av_frame_make_writable(frame);
    if (result < 0) {
        av_frame_free(amp;frame);
        {
            avcodec_free_context(amp;m_AudioCodecContext);
            if (m_FormatContext != nullptr)
                avformat_free_context(m_FormatContext);
            return;
        }
    }

    int perFrameDataSize = frame->linesize[0];
    int count = _pcmData.size() / perFrameDataSize;
    bool needAddOne = false;
    if (_pcmData.size() % perFrameDataSize != 0) {
        count  ;
        needAddOne = true;
    }

    int frameCount = 0;
    for (int i = 0; i < count;   i) {
        // Create a Packet
        AVPacket* pkt = av_packet_alloc();
        if (pkt == nullptr) {
            avcodec_free_context(amp;m_AudioCodecContext);
            if (m_FormatContext != nullptr)
                avformat_free_context(m_FormatContext);
            return;
        }
        av_init_packet(pkt);

        if (i == count - 1)
            perFrameDataSize = _pcmData.size() % perFrameDataSize;

        // Synthesize WAV files
        memset(frame->data[0], 0, perFrameDataSize);
        memcpy(frame->data[0], amp;(_pcmData.data()[perFrameDataSize * i]), perFrameDataSize);

        frame->pts = frameCount  ;
        // send Frame
        result = avcodec_send_frame(m_AudioCodecContext, frame);
        if (result < 0)
            continue;

        // Receive the encoded Packet
        result = avcodec_receive_packet(m_AudioCodecContext, pkt);
        if (result < 0) {
            av_packet_free(amp;pkt);
            continue;
        }

        // write to file
        av_packet_rescale_ts(pkt, m_AudioCodecContext->time_base, m_FormatContext->streams[0]->time_base);
        pkt->stream_index = 0;
        result = av_interleaved_write_frame(m_FormatContext, pkt);
        if (result < 0)
            continue;

        av_packet_free(amp;pkt);
    }

    // write to the end of the file
    av_write_trailer(m_FormatContext);
    // Close file IO
    avio_closep(amp;m_FormatContext->pb);
    // Release Frame memory
    av_frame_free(amp;frame);

    avcodec_free_context(amp;m_AudioCodecContext);
    if (m_FormatContext != nullptr)
        avformat_free_context(m_FormatContext);
}

main.cpp

 int main(int argc, char **argv)
{
    av_log_set_level(AV_LOG_TRACE);

    QFile file("rawDataOfPcmAlawType.bin");
    if (!file.open(QIODevice::ReadOnly)) {
        return EXIT_FAILURE;
    }
    QByteArray rawData(file.readAll());

    AudioGenerater generator;
    generator.generateAudioFileWithOptions(
               "test.mka",
               rawData,
               1, 
               64000, 
               8000,
               AV_SAMPLE_FMT_S16);

    return 0;
}

ВАЖНО, чтобы вы помогли мне найти наиболее подходящий способ записи pcm_alaw или другой формат данных в MKA аудиофайле.

Я прошу всех, кто что-либо знает, помочь (осталось слишком мало времени для реализации этого проекта)

1. пожалуйста, опубликуйте соответствующий код, чтобы воспроизвести проблему.

2. @HassaanAli, большое вам спасибо за ваш комментарий. Код уже добавлен.

3. Из сообщения об ошибке я бы сначала заподозрил неправильные временные метки AVPacket (проверьте, чтобы у duration , dts и pts членов были правильные значения в указанных единицах времени). Также нет необходимости вызывать av_interleaved_write_frame (вы можете просто вызвать av_write_frame ), чтобы избежать избыточной буферизации, если ваш код уже гарантирует, что образцы записаны в правильном порядке. Также вы можете попробовать проверить образцы в файле с помощью ffprobe утилиты ( ffprobe -show_frames <generated_video_file_name> ).

4. @Oliort, большое вам спасибо за ваш комментарий. В моем проекте я использую этот пример. Это работает, но при преобразовании f32se в mka я получаю поврежденную звуковую дорожку, а именно, при воспроизведении аудио она выполняется в 8 раз медленнее. Но при делении этой строки pts = frame->nb_samples / 8; на 8 она воспроизводится правильно. Почему это так?

5. @bbdd, проблема в том, что вы не проверяете сходство между AVPacket::pts и AVPacket::dts перед записью кадра в выходной файл (AVFormatContext).

Ответ №1:

Эти полезные ссылки помогут вам:

Хороший обзор последовательности обработки данных в libav: ffmpeg-libav-tutorial
Примеры от самих разработчиков ffmpeg: avio_reading, resampling_audio, transcode_aac

Вопрос:

Комментарии:

Ответ №1:

Вам также может понравиться

Как извлечь имя файла в виде строки при переборе файлов с помощью `pathlib.Path().glob()`?

Как я могу получить плату за заказ из существующего цикла foreach и использовать ее в качестве аргумента в WooCommerce

Функция высокого порядка в промежуточном ПО express