第三章 FFmpeg的介绍与使用_安全

FFmpeg名称中的mpeg来自视频编码标准MPEG，而前缀FF是Fast Forward的首字母缩写。

默认的编译会生成 4 个可执行文件和 8 个静态库。可执行文件包括用于转码、推流、Dump媒体文件的 ffmpeg 、用于播放媒体文件的 ffplay 、用于获取媒体文件信息的 ffprobe ，以及作为简单流媒体服务器的 ffserver 。

8个静态库其实就是FFmpeg的8个模块，具体包括如下内容。

比如AAC编码，常见的有两种封装格式

AAC 的 bit stream filter 常常应用在编码的过程中。

与音频的AAC编码格式相对应的是视频中的 H264编码，它也有两种封装格式

FFmpeg中也提供了对应的 bit stream filter ，称 H264_mp4toannexb ，可以将MP4封装格式的H264数据包转换为annexb封装格式的H264数据 (其实就是裸的H264的数据)包。

H264 的 bit stream filter 常常应用于视频解码过程中。

ffmpeg 是进行媒体文件转码的命令行工具
ffprobe 是用于查看媒体文件头信息的工具
ffplay 则是用于播放媒体文件的工具

1首先用ffprobe查看一个音频的文件

2输出格式信息format_name、时间长度duration、文件大小size、比特率bit_rate、流的数目nb_streams等。

3以JSON格式的形式输出具体每一个流最详细的信息

4显示帧信息的命令如下:

5查看包信息的命令如下:

ffplay是以FFmpeg框架为基础，外加渲染音视频的库libSDL来构建的媒体文件播放器。

业界内开源的 ijkPlayer 其实就是基于 ffplay 进行改造的播放器，当然其做了硬件解码以及很多兼容性的工作。

在 ffplay中音画同步的实现方式其实有三种。分别是

并且在 ffplay 中默认的对齐方式也是以音频为基准进行对齐的。

首先要声明的是，播放器接收到的视频帧或者音频帧，内部都会有时间戳(PTS时钟) 来标识它实际应该在什么时刻进行展示。

实际的对齐策略如下:比较视频当前的播放时间和音频当前的播放时间

关键就在于音视频时间的比较以及延迟的计算，当然在比较的过程中会设置一个阈值(Threshold) ，若超过预设的阈值就应该做调整(丢帧渲染或者重复渲染)，这就是整个对齐策略。

ffmpeg 就是强大的媒体文件转换工具。它可以转换任何格式的媒体文件，并且还可以用自己的 AudioFilter 以及 VideoFilter 进行处理和编辑。

接下来介绍一个解码的实例，该实例实现的功能非常单一，就是把一个视频文件解码成单独的音频PCM文件和视频YUV文件。

AVFormatContext是API层直接接触到的结构体，它会进行格式的封装与解封装。

该结构体包含的就是与实际的编解码有关的部分。

331 av_register_all
所以该函数的内部实现会先调用 avcodec_register_all 来注册所有configh里面开放的编解码器，然后会注册所有的 Muxer 和 Demuxer (也就是封装格式)，最后注册所有的 Protocol (即协议层的东西)。

332 av_find_codec
这里面其实包含了两部分的内容:一部分是寻找解码器，一部分是寻找编码器。

333 avcodec_open2
该函数是打开编解码器(Codec)的函数，无论是编码过程还是解码过程，都会用到该函数。

avformat_open_input
根据所提供的文件路径判断文件的格式，其实就是通过这一步来决定使用的到底是哪一个 Demuxer 。

avformat_find_stream_info
该方法的作用就是把所有 Stream 的 MetaData 信息填充好。

av_read_frame
使用该方法读取出来的数据是 AVPacket 。

对于音频流，一个 AVPacket 可能包含多个 AVFrame ，但是对于视频流，一个 AVPacket 只包含一个 AVFrame ，该函数最终只会返回一个 AVPacket 结构体。

avcodec_decode
该方法包含了两部分内容:一部分是解码视频，一部分是解码音频，解码是会委托给对应的解码器来实施的。

avformat_close_input
该函数负责释放对应的资源。

avformat_alloc_output_context2
该函数内部需要调用方法avformat_alloc_context来分配一个 AVFormatContext 结构体。

avio_open2
编码的阶段了，开发者需要将手动封装好的 AVFrame 结构体，作为 avcodec_encode_video 方法的输入，将其编码成为 AVPacket ，然后调用 av_write_frame 方法输出到媒体文件中。

本文参考音视频开发进阶指南

项目源码地址 - FFmpegDecoder

是指视频文件在单位时间内使用的数据流量，也叫码率或码流率，通俗一点的理解就是取样率,是视频编码中画面质量控制中最重要的部分，一般我们用的单位是kb/s或者Mb/s。一般来说同样分辨率下，视频文件的码流越大，压缩比就越小，画面质量就越高。码流越大，说明单位时间内取样率越大，数据流，精度就越高，处理出来的文件就越接近原始文件，图像质量越好，画质越清晰，要求播放设备的解码能力也越高。
当然，码流越大，文件体积也越大，其计算公式是文件体积=时间X码率/8。例如，网络上常见的一部90分钟1Mbps码流的720P RMVB文件，其体积就=5400秒×1Mb/8=675MB。通常来说，一个视频文件包括了画面及声音，例如一个RMVB的视频文件，里面包含了视频信息和音频信息，音频及视频都有各自不同的采样方式和比特率，也就是说，同一个视频文件音频和视频的比特率并不是一样的。而我们所说的一个视频文件码流率大小，一般是指视频文件中音频及视频信息码流率的总和。以以国内最流行，大家最熟悉的RMVB视频文件为例，RMVB中的VB，指的是VBR，即Variable Bit Rate的缩写，中文含义是可变比特率，它表示RMVB采用的是动态编码的方式，把较高的采样率用于复杂的动态画面(歌舞、飞车、战争、动作等)，而把较低的采样率用于静态画面，合理利用资源，达到画质与体积可兼得的效果。
我的理解码流就是视频/音频文件的每秒的大小，码率越高文件越大，呈现出来的失帧也就越低

采样率（也称为采样速度或者采样频率）定义了每秒从连续信号中提取并组成离散信号的采样个数，它用赫兹（Hz）来表示。采样率是指将模拟信号转换成数字信号时的采样频率，也就是单位时间内采样多少点。一个采样点数据有多少个比特。比特率是指每秒传送的比特(bit)数。单位为 bps(Bit Per Second)，比特率越高，传送的数据越大，音质越好比特率 =采样率 x 采用位数 x声道数
采样率类似于动态影像的帧数，比如的采样率是24赫兹，PAL制式的采样率是25赫兹，NTSC制式的采样率是30赫兹。当我们把采样到的一个个静止画面再以采样率同样的速度回放时，看到的就是连续的画面。同样的道理，把以441kHZ采样率记录的CD以同样的速率播放时，就能听到连续的声音。显然，这个采样率越高，听到的声音和看到的图像就越连贯。当然，人的听觉和视觉器官能分辨的采样率是有限的，基本上高于441kHZ采样的声音，绝大部分人已经觉察不到其中的分别了。而声音的位数就相当于画面的颜色数，表示每个取样的数据量，当然数据量越大，回放的声音越准确，不至于把开水壶的叫声和火车的鸣笛混淆。同样的道理，对于画面来说就是更清晰和准确，不至于把血和西红柿酱混淆。不过受人的器官的机能限制，16位的声音和24位的画面基本已经是普通人类的极限了，更高位数就只能靠仪器才能分辨出来了。比如电话就是3kHZ取样的7位声音，而CD是441kHZ取样的16位声音，所以CD就比电话更清楚。
我的理解采样率就是每秒采集音视频的点，比如我们通常说的8k 16k与44100

比特率是指每秒传送的比特(bit)数。单位为bps(Bit Per Second)，比特率越高，传送的数据越大。在视频领域,比特率常翻译为码率比特率是指每秒传送的比特(bit)数。单位为bps(Bit Per Second)，比特率越高，传送的数据越大。在视频领域,比特率常翻译为码率 !!!
比特率表示经过编码（压缩）后的音、视频数据每秒钟需要用多少个比特来表示，而比特就是二进制里面最小的单位，要么是0，要么是1。比特率与音、视频压缩的关系，简单的说就是比特率越高，音、视频的质量就越好，但编码后的文件就越大；如果比特率越少则情况刚好相反。比特率是指将数字声音、视频由模拟格式转化成数字格式的采样率，采样率越高，还原后的音质、画质就越好。
我的理解是比特率与采样率概念相同，不过采样率是压缩前的比特率是压缩后的

VBR（Variable Bitrate）动态比特率也就是没有固定的比特率，压缩软件在压缩时根据音频数据即时确定使用什么比特率，这是以质量为前提兼顾文件大小的方式，推荐编码模式；

ABR（Average Bitrate）平均比特率是VBR的一种插值参数。LAME针对CBR不佳的文件体积比和VBR生成文件大小不定的特点独创了这种编码模式。ABR在指定的文件大小内，以每50帧（30帧约1秒）为一段，低频和不敏感频率使用相对低的流量，高频和大动态表现时使用高流量，可以做为VBR和CBR的一种折衷选择。

CBR（Constant Bitrate），常数比特率指文件从头到尾都是一种位速率。相对于VBR和ABR来讲，它压缩出来的文件体积很大，而且音质相对于VBR和ABR不会有明显的提高。

帧速率也称为FPS(Frames PerSecond)的缩写——帧/秒。是指每秒钟刷新的的帧数，也可以理解为图形处理器每秒钟能够刷新几次。越高的帧速率可以得到更流畅、更逼真的动画。每秒钟帧数(FPS)越多，所显示的动作就会越流畅。
就是俗称的每秒多少帧，例如我们众所周知的动画24帧/每秒

就是帧大小每一帧就是一副图像。

在手机上呈现的画面，第一帧与第二帧的图像中肯定有很多相同的画面，比如在一个固定的场所，背景不动，只有人物移动的情况，这时只需要重新绘制人物的移动就可以，背景不用重新绘制。IPB帧就是用于处理这种情况。

I帧:帧内编码帧，I帧表示关键帧，你可以理解为这一帧画面的完整保留；解码时只需要本帧数据就可以完成（因为包含完整画面）

P帧:前向预测编码帧。P帧表示的是这一帧跟之前的一个关键帧（或P帧）的差别，解码时需要用之前缓存的画面叠加上本帧定义的差别，生成最终画面。（也就是差别帧，P帧没有完整画面数据，只有与前一帧的画面差别的数据）

P帧的预测与重构:P帧是以I帧为参考帧,在I帧中找出P帧“某点”的预测值和运动矢量,取预测差值和运动矢量一起传送。在接收端根据运动矢量从I帧中找出P帧“某点”的预测值并与差值相加以得到P帧“某点”样值,从而可得到完整的P帧。

B帧:双向预测内插编码帧。B帧是双向差别帧，也就是B帧记录的是本帧与前后帧的差别（具体比较复杂，有4种情况，但我这样说简单些），换言之，要解码B帧，不仅要取得之前的缓存画面，还要解码之后的画面，通过前后画面的与本帧数据的叠加取得最终的画面。B帧压缩率高，但是解码时CPU会比较累。

B帧的预测与重构

B帧以前面的I或P帧和后面的P帧为参考帧,“找出”B帧“某点”的预测值和两个运动矢量,并取预测差值和运动矢量传送。接收端根据运动矢量在两个参考帧中“找出(算出)”预测值并与差值求和,得到B帧“某点”样值,从而可得到完整的B帧。

1）B帧是由前面的I或P帧和后面的P帧来进行预测的;

2）B帧传送的是它与前面的I或P帧和后面的P帧之间的预测误差及运动矢量;

3）B帧是双向预测编码帧;

4）B帧压缩比最高,因为它只反映丙参考帧间运动主体的变化情况,预测比较准确;

5）B帧不是参考帧,不会造成解码错误的扩散。

我找了篇文章，可以更好的理解H264
H264基础简介

在视频编码序列中，GOP即Group of picture（图像组），指两个I帧之间的距离，Reference（参考周期）指两个P帧之间的距离（如下图31）。一个I帧所占用的字节数大于一个P帧，一个P帧所占用的字节数大于一个B帧（如下图31所示）。

所以在码率不变的前提下，GOP值越大，P、B帧的数量会越多，平均每个I、P、B帧所占用的字节数就越多，也就更容易获取较好的图像质量；Reference越大，B帧的数量越多，同理也更容易获得较好的图像质量。需要说明的是，通过提高GOP值来提高图像质量是有限度的，在遇到场景切换的情况时，H264编码器会自动强制插入一个I帧，此时实际的GOP值被缩短了。另一方面，在一个GOP中，P、B帧是由I帧预测得到的，当I帧的图像质量比较差时，会影响到一个GOP中后续P、B帧的图像质量，直到下一个GOP开始才有可能得以恢复，所以GOP值也不宜设置过大。同时，由于P、B帧的复杂度大于I帧，所以过多的P、B帧会影响编码效率，使编码效率降低。另外，过长的GOP还会影响Seek *** 作的响应速度，由于P、B帧是由前面的I或P帧预测得到的，所以Seek *** 作需要直接定位，解码某一个P或B帧时，需要先解码得到本GOP内的I帧及之前的N个预测帧才可以，GOP值越长，需要解码的预测帧就越多，seek响应的时间也越长。

DTS（Decoding Time Stamp）：即解码时间戳，这个时间戳的意义在于告诉播放器该在什么时候解码这一帧的数据。
PTS（Presentation Time Stamp）：即显示时间戳，这个时间戳用来告诉播放器该在什么时候显示这一帧的数据。
这2个概念经常出现在音频视频编码和播放中，其实际意义是，PTS是真正录制和播放的时间戳，而DTS是解码的时间戳。
对于普通的无B桢视频(H264 Baseline或者VP8)，PTS/DTS应该是相等的，因为没有延迟编码。
对于有B桢的视频，I桢的PTS依然等于DTS, P桢的PTS>DTS, B桢的PTS<DTS。
可以简单地这样理解：
若视频没有B帧，则I和P都是解码后即刻显示。
若视频含有B帧，则I是解码后即刻显示，P是先解码后显示，B是后解码先显示。（B 和P的先、后是相对的）。

上面说了视频帧、DTS、PTS 相关的概念。我们都知道在一个媒体流中，除了视频以外，通常还包括音频。音频的播放，也有 DTS、PTS 的概念，但是音频没有类似视频中 B 帧，不需要双向预测，所以音频帧的 DTS、PTS 顺序是一致的。
音频视频混合在一起播放，就呈现了我们常常看到的广义的视频。在音视频一起播放的时候，我们通常需要面临一个问题：怎么去同步它们，以免出现画不对声的情况。
要实现音视频同步，通常需要选择一个参考时钟，参考时钟上的时间是线性递增的，编码音视频流时依据参考时钟上的时间给每帧数据打上时间戳。在播放时，读取数据帧上的时间戳，同时参考当前参考时钟上的时间来安排播放。这里的说的时间戳就是我们前面说的 PTS。实践中，我们可以选择：同步视频到音频、同步音频到视频、同步音频和视频到外部时钟。

视频编码指的就是通过特定的压缩技术，将某个视频格式文件转换成另一种视频格式的文件的方式。

视频流传输中最重要的编解码标准有国际电联的H261、H263、H264和国际标准化组织运动图像专家组的MPEG系列标准。

MPEG系列：（由ISO[国际标准化组织]下属的MPEG[运动图像开发专家组]开发）视频编码方面主要是MPEG1(VCD)、MPEG2(DVD)、 MPEG4、MPEG4 AVC（正热门）。音频编码方面主要是MPEG Audio Layer 1/2、MPEG Audio Layer 3(MP3) 、 MPEG-2AAC、 MPEG-4 AAC等。

H26X系列：（由 ITU[国际电传视讯联盟]主导，侧重网络传输，只有视频编码） H261、H262、H263、H263+、H263++、H264(与MPEG4 AVC 合作的结晶)

常见的音频编码格式有AAC、MP3、AC3
MP3：是一种音频压缩技术，它被设计用来大幅度地降低音频数据量。将音乐以1:10 甚至1:12的压缩率，压缩成容量较小的文件，而对于大多数的用户来说，重放的音质于最初不压缩的音频相比没有明显下降。 MP3的特点是，利用人耳对高频信号不敏感的特性，将时域波形信号转换成频域信号，并划分成多个频段，对不同的频段使用不同的压缩率，对高频信号使用大压缩率（甚至忽略信号），对低频信号使用小压缩率，保证信号不失真。这样一来就相当于抛弃人耳基本听不到的高频声音，只保留能听到的低频部分，从而将声音用1:10甚至1:12的压缩率压缩。

AAC：一种专门为声音数据设计的文件压缩格式，与MP3不同，它采用了全新的算法进行编码，更加高效，具有更高的”性价比“，在感觉声音在没有明显降低的前提下，可使文件更加小巧。AAC的优点是，相对于MP3，AAC的音质更加文件更小。AAC缺点是，AAC是属于有损压缩格式，与时下流行的APE、FLAC等无损压缩格式相比音质存在本质上的差距。

AC3：有损音频编码格式。被广泛应用与51声道。AC3普及程度很高，唱片、**院。AC3提供的环绕声系统由5个全频域声道和1个超低音声道组成。

MediaPlayer：播放控制

MediaCodec：音视频编解码

OMX：多媒体部分采用的编解码标准

StageFright：它是一个框架，替代之前的OpenCore，主要是做了一个OMX层，仅仅对OpenCore的omx-component部分做了引用。StageFright是在MediaPlayerService这一层加入的，和OpenCore是并列的。StageFright在Android 中是以共享库的形式存在的（libstegefrightso）,其中model----NuPlayer/AwesomePlayer可以用来播放音视频。

AudioTrack ：音频播放。

VLC ： Video LAN Client，是一款自由、开源的跨平台多媒体播放器及框架。

FFmpeg ：多媒体解决方案，不是多媒体框架，广泛用于音视频开发中。

GStreamer ：一套构建流媒体应用的开源多媒体框架。

是用于测量显示帧数的量度。所谓的测量单位为每秒显示的帧数。每秒显示帧数或者帧率表示图形处理器处理场时每秒能够更新的次数。30fps就是可以接受的，60fps则可以明显提升交互感和逼真感，但超过75fps就不容易察觉有明显的流畅度提升了。如果帧率超过屏幕刷新率，则会浪费图像的处理能力。

刷新率是指屏幕每秒画面被刷新的次数，刷新率分为垂直刷新率和水平刷新率，一般提到的刷新率通常是指垂直刷新率。垂直刷新率表示屏幕上图像每秒重绘多少次，也就是每秒屏幕刷新的次数，以Hz为单位。刷新率越高，图像就越稳定，图像显示就越自然清晰，对眼睛的影响也越小。达到80Hz以上的刷新率就可以完全消除图像闪烁和抖动感。

编码的目的是压缩数据量，采用编码算法压缩冗余数据。（MPEG、H26X）

把编码后的音视频数据以一定格式封装到一个容器中，封装格式有mkv、avi、ts等。

码率也就是比特率，比特率是单位时间播放连续的媒体（如压缩后的音频或视频）的比特数量。比特率越高，带宽消耗得越多。比特（bit）0或1

文件大小（b） = 码率（b/s）时长（s）

视频质量和码率、编码算法都有关系。

DTS：即 Decode Time Stamp,主要是用于标示读入内存中比特率在什么时候开始送入解码器中进行解码

PTS：即Presentation Time Stamp,主要用于度量解码后的视频帧什么时候被显示出来

常见的视频帧有I、P、B帧等

I 帧表示关键帧，可以理解为这一帧画面的完整保留，解码时只需要本帧数据就可以完成（因为包含完整画面）

P 帧表示的是这一帧和之前的一个关键帧（或P帧）的差别，解码时需要用之前缓存的画面叠加上本帧定义的差别生成最终画面。（也就是差别帧，P帧没有完整画面数据，只有与前一帧的画面差别的数据）

B 帧是双向差别帧，也就是B帧记录的是本帧和前后帧的差别，通过前后画面数据与本帧数据的叠加取得最终的画面。B帧压缩率高，但解码时CPU比较吃力。

音频帧的概念没有那么清晰，跟音频编码格式相关，它是各个编码标准自己实现的。

PCM（未经编码的音频数据）来说，它根本就不需要帧的概念，根据采样率和采样精度就可以播放，比如采样率为441kHz,采样进度为16位的音频，你可以算出比特率是4410016kb/s,每秒的音频数据是固定的4410016/8字节。

AMR 帧比较简单，它规定每20ms的音频为一帧，每一帧音频都是独立的，有可能采用不同的编码算法以及不同的编码参数。

MP3帧较复杂，包含更多信息，比如采样率、比特率等各种参数。音频数据帧个数由文件大小和帧长决定，每一帧的长度可能不固定，也可能固定，由比特率决定，每一帧又分为帧头和数据实体两部分，帧头记录了MP3的比特率、采样率、版本等信息，每一帧之间相互独立。

表示可以将模拟信号分成多少个等级，量化精度越高，音乐的声压振幅越接近原音乐。量化精度的单位是bit(比特) 。也可以理解为一个采样点用多少比特表示（8/16/24/32bit）。CD-->16bit ， DVD-->24bit。

每秒音频采样点个数（8000/44100Hz）,采样单位用Hz表示。

声道是指声音在录制或播放时在不同空间位置采集或回放的相互独立的音频信号，所以声道数也就是声音录制时的音源数量或者回放时相应的扬声器数量。单声道、立体声道、4声道、51声道、71声道等。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/yw/10554290.html

第三章 FFmpeg的介绍与使用

发表评论

评论列表（0条）