RapidVideOCR:视频硬字幕提取，自动生成对应srt和带有关键帧的docx文件_python

- - RapidVideOCR
  - 整体框架
  - 未来的应用场景探索
  - 耗时基准
  - 写在最后

RapidVideOCR

视频硬字幕提取，自动生成对应srt和带有关键帧的docx文件。采用OCR技术，离线CPU即可运行,，更快更准更方便
支持字幕语言：中文 | 英文 | 日文（其他可以支持的语言参见：支持语种列表)
想法源自 videocr
可加入QQ群：706807542
更快更准确地提取内嵌在视频的字幕，并提供txt|SRT|docx三种格式
- 更快：
  - 采用Decord作为读取视频的库，更快;对于整个输入的视频，并不全部提取，因为存在大量重复字幕内容；
  - 这里采用预先找到出现不同字幕的关键帧，再送入OCR部分，因此更快
- 更准：整个项目完全为全离线CPU运行，OCR部分采用的是RapidOCR，模型均来自PaddleOCR。
  - 当然也可以在GPU运行，只要根据机器配置，安装对应版本的onnxruntime-gpu，即可自动在英伟达显卡上运行。具体教程参见：onnxruntime-gpu版推理配置
- 更方便：采用大小仅为2M左右的ONNXRuntime推理引擎，不安装PaddlePaddle框架，部署更加方便

🐱如果想要识别纯英文、日文的字幕，可以在main.py中更改对应模型和字典文件即可。

det_model_path = "resources/models/ch_PP-OCRv2_det_infer.onnx"
cls_model_path = "resources/models/ch_ppocr_mobile_v2.0_cls_infer.onnx"

# 纯英文模型
rec_model_path = "resources/models/en_number_mobile_v2.0_rec_infer.onnx"
dict_path = "resources/en_dict.txt"

# 日文
rec_model_path = "resources/rapid_ocr/models/japan_rec_crnn.onnx"
dict_path = "resources/rapid_ocr/japan_dict.txt"

整体框架

未来的应用场景探索

基于视频文本OCR的视频内容理解，结合图像特征+图像中文本特征
视频字幕自动翻译
基于视频文本特征的视频检索

耗时基准

配置	测试MP4	总帧数	每帧大小	耗时(s)
`Intel(R) Core(TM) i7-6700 CPU @3.40GHz 3.41 GHz`	`assets/test_video/2.mp4`	71	1920x800	4.681s
`Intel(R) Core(TM) i5-4210M CPU @2.60GHz 2.59 GHz`	`assets/test_video/2.mp4`	71	1920x800	6.832s