Неправильная частота кадров библиотеки C ffmpeg при мультиплексировании

#c #ffmpeg #libav

#c #ffmpeg #libav

Вопрос:

Я пытаюсь создать функцию, которая объединит аудиофайл и видеофайл и выведет их в формат mp4. Мне удалось успешно это сделать, за исключением того, что на выходе не задана правильная частота кадров. Это очень небольшое отличие от оригинала. 30.13, тогда как оно должно быть ровно 30. Когда я объединяю эти файлы с программой ffmpeg, результат равен ровно 30, как и должно быть.

Я уверен, что это как-то связано с коррекцией dts / pts при получении данных не по порядку, но программа ffmpeg делает это тоже аналогичным образом. Итак, я не уверен, куда идти дальше. Я просмотрел исходный код ffmpeg и скопировал некоторые из их исправлений dts, но по-прежнему безуспешно. Что я здесь делаю не так?

 bool mux_audio_video(const char* audio_filename, const char* video_filename, const char* output_filename){
    av_register_all();

    AVOutputFormat* out_format = NULL;
    AVFormatContext* audio_context = NULL, *video_context = NULL, *output_context = NULL;
    int video_index_in = -1, audio_index_in = -1;
    int video_index_out = -1, audio_index_out = -1;


    if(avformat_open_input(amp;audio_context, audio_filename, 0, 0) < 0)
            return false;
    if(avformat_find_stream_info(audio_context, 0) < 0){
            avformat_close_input(amp;audio_context);
            return false;
    }
    if(avformat_open_input(amp;video_context, video_filename, 0, 0) < 0){
            avformat_close_input(amp;audio_context);
            return false;
    }
    if(avformat_find_stream_info(video_context, 0) < 0){
            avformat_close_input(amp;audio_context);
            avformat_close_input(amp;video_context);
            return false;
    }

    if(avformat_alloc_output_context2(amp;output_context, av_guess_format("mp4", NULL, NULL), NULL, output_filename) < 0){
            avformat_close_input(amp;audio_context);
            avformat_close_input(amp;video_context);
            return false;
    }
    out_format = output_context->oformat;

    //find first audio stream in the audio file input
    for(size_t i = 0;i < audio_context->nb_streams;  i){
            if(audio_context->streams[i]->codecpar->codec_type == AVMEDIA_TYPE_AUDIO){
                    audio_index_in = i;

                    AVStream* in_stream = audio_context->streams[i];
                    AVCodec* codec = avcodec_find_encoder(in_stream->codecpar->codec_id);
                    AVCodecContext* tmp = avcodec_alloc_context3(codec);
                    avcodec_parameters_to_context(tmp, in_stream->codecpar);
                    AVStream* out_stream = avformat_new_stream(output_context, codec);
                    audio_index_out = out_stream->index;
                    if(output_context->oformat->flags amp; AVFMT_GLOBALHEADER){
                            tmp->flags |= AV_CODEC_FLAG_GLOBAL_HEADER;
                    }
                    tmp->codec_tag = 0;
                    avcodec_parameters_from_context(out_stream->codecpar, tmp);
                    avcodec_free_context(amp;tmp);

                    break;
            }
    }
    //find first video stream in the video file input
    for(size_t i = 0;i < video_context->nb_streams;  i){
            if(video_context->streams[i]->codecpar->codec_type == AVMEDIA_TYPE_VIDEO){
                    video_index_in = i;

                    AVStream* in_stream = video_context->streams[i];
                    AVCodec* codec = avcodec_find_encoder(in_stream->codecpar->codec_id);
                    AVCodecContext* tmp = avcodec_alloc_context3(codec);
                    avcodec_parameters_to_context(tmp, in_stream->codecpar);
                    AVStream* out_stream = avformat_new_stream(output_context, codec);
                    video_index_out = out_stream->index;
                    if(output_context->oformat->flags amp; AVFMT_GLOBALHEADER){
                            tmp->flags |= AV_CODEC_FLAG_GLOBAL_HEADER;
                    }
                    tmp->codec_tag = 0;
                    avcodec_parameters_from_context(out_stream->codecpar, tmp);
                    avcodec_free_context(amp;tmp);

                    break;
            }
    }

    //setup output
    if(!(out_format->flags amp; AVFMT_NOFILE)){
            if(avio_open(amp;output_context->pb, output_filename, AVIO_FLAG_WRITE) < 0){
                    avformat_free_context(output_context);
                    avformat_close_input(amp;audio_context);
                    avformat_close_input(amp;video_context);
                    return false;
            }
    }
    if(avformat_write_header(output_context, NULL) < 0){
            if(!(out_format->flags amp; AVFMT_NOFILE)){
                    avio_close(output_context->pb);
            }
            avformat_free_context(output_context);
            avformat_close_input(amp;audio_context);
            avformat_close_input(amp;video_context);
            return false;
    }

    int64_t video_pts = 0, audio_pts = 0;
    int64_t last_video_dts = 0, last_audio_dts = 0;

    while(true){
            AVPacket packet;
            av_init_packet(amp;packet);
            packet.data = NULL;
            packet.size = 0;
            int64_t* last_dts;
            AVFormatContext* in_context;
            int stream_index = 0;
            AVStream* in_stream, *out_stream;

            //Read in a frame from the next stream
            if(av_compare_ts(video_pts, video_context->streams[video_index_in]->time_base,
                             audio_pts, audio_context->streams[audio_index_in]->time_base) <= 0)
            {
                    //video
                    last_dts = amp;last_video_dts;
                    in_context = video_context;
                    stream_index = video_index_out;

                    if(av_read_frame(in_context, amp;packet) >= 0){
                            do{
                                    if(packet.stream_index == video_index_in){
                                            video_pts = packet.pts;
                                            break;
                                    }
                                    av_packet_unref(amp;packet);
                            }while(av_read_frame(in_context, amp;packet) >= 0);
                    }else{
                            break;
                    }
            }else{
                    //audio
                    last_dts = amp;last_audio_dts;
                    in_context = audio_context;
                    stream_index = audio_index_out;

                    if(av_read_frame(in_context, amp;packet) >= 0){
                            do{
                                    if(packet.stream_index == audio_index_in){
                                            audio_pts = packet.pts;
                                            break;
                                    }
                                    av_packet_unref(amp;packet);
                            }while(av_read_frame(in_context, amp;packet) >= 0);
                    }else{
                            break;
                    }
            }
            in_stream = in_context->streams[packet.stream_index];
            out_stream = output_context->streams[stream_index];

            av_packet_rescale_ts(amp;packet, in_stream->time_base, out_stream->time_base);

            //if dts is out of order, ffmpeg throws an error. So manually fix. Similar to what ffmpeg does in ffmpeg.c
            if(packet.dts < (*last_dts   !(output_context->oformat->flags amp; AVFMT_TS_NONSTRICT)) amp;amp; packet.dts != AV_NOPTS_VALUE amp;amp; (*last_dts) != AV_NOPTS_VALUE){
                    int64_t next_dts = (*last_dts) 1;
                    if(packet.pts >= packet.dts amp;amp; packet.pts != AV_NOPTS_VALUE){
                            packet.pts = FFMAX(packet.pts, next_dts);
                    }
                    if(packet.pts == AV_NOPTS_VALUE){
                            packet.pts = next_dts;
                    }
                    packet.dts = next_dts;
            }
            (*last_dts) = packet.dts;

            packet.pos = -1;
            packet.stream_index = stream_index;

            //output packet
            if(av_interleaved_write_frame(output_context, amp;packet) < 0){
                    break;
            }
            av_packet_unref(amp;packet);

    }

    av_write_trailer(output_context);

    //cleanup
    if(!(out_format->flags amp; AVFMT_NOFILE)){
            avio_close(output_context->pb);
    }
    avformat_free_context(output_context);
    avformat_close_input(amp;audio_context);
    avformat_close_input(amp;video_context);
    return true;
}
  

Ответ №1:

Я обнаружил проблему. Мне просто нужно было инициализировать last_video_dts и last_audio_dts минимальным значением для int64_t вместо 0.

 int64_t last_video_dts, last_audio_dts;
last_video_dts = last_audio_dts = std::numeric_limits<int64_t>::lowest();
  

Теперь выходные данные в основном идентичны выводам программы ffmpeg.

Редактировать:

Как упоминалось в kamilz, лучше и переносимее использовать AV_NOPTS_VALUE .

 int64_t last_video_dts, last_audio_dts;
last_video_dts = last_audio_dts = AV_NOPTS_VALUE;
  

Комментарии:

1. Это не выглядит переносимым, возможно, то, что вам нужно, было AV_NOPTS_VALUE .

2. @thekamilz спасибо за предупреждение. Отредактировал ответ, чтобы отразить эту новую информацию.