- RapidVideOCR
- 整体框架
- 未来的应用场景探索
- 耗时基准
- 写在最后
-
视频硬字幕提取,自动生成对应srt和带有关键帧的docx文件。采用OCR技术,离线CPU即可运行,,更快更准更方便
-
支持字幕语言:中文 | 英文 | 日文 (其他可以支持的语言参见:支持语种列表)
-
想法源自 videocr
-
可加入QQ群:706807542
-
更快更准确地提取内嵌在视频的字幕,并提供
txt|SRT|docx
三种格式- 更快:
- 采用Decord作为读取视频的库,更快;对于整个输入的视频,并不全部提取,因为存在大量重复字幕内容;
- 这里采用预先找到出现不同字幕的关键帧,再送入OCR部分,因此更快
- 更准:整个项目完全为全离线CPU运行,OCR部分采用的是RapidOCR,模型均来自PaddleOCR。
- 当然也可以在GPU运行,只要根据机器配置,安装对应版本的
onnxruntime-gpu
,即可自动在英伟达显卡上运行。具体教程参见:onnxruntime-gpu版推理配置
- 当然也可以在GPU运行,只要根据机器配置,安装对应版本的
- 更方便:采用大小仅为2M左右的ONNXRuntime推理引擎,不安装PaddlePaddle框架,部署更加方便
- 更快:
-
🐱如果想要识别纯英文、日文的字幕,可以在
main.py
中更改对应模型和字典文件即可。det_model_path = "resources/models/ch_PP-OCRv2_det_infer.onnx" cls_model_path = "resources/models/ch_ppocr_mobile_v2.0_cls_infer.onnx" # 纯英文模型 rec_model_path = "resources/models/en_number_mobile_v2.0_rec_infer.onnx" dict_path = "resources/en_dict.txt" # 日文 rec_model_path = "resources/rapid_ocr/models/japan_rec_crnn.onnx" dict_path = "resources/rapid_ocr/japan_dict.txt"
- 基于视频文本OCR的视频内容理解,结合图像特征+图像中文本特征
- 视频字幕自动翻译
- 基于视频文本特征的视频检索
配置 | 测试MP4 | 总帧数 | 每帧大小 | 耗时(s) |
---|---|---|---|---|
Intel(R) Core(TM) i7-6700 CPU @3.40GHz 3.41 GHz | assets/test_video/2.mp4 | 71 | 1920x800 | 4.681s |
Intel(R) Core(TM) i5-4210M CPU @2.60GHz 2.59 GHz | assets/test_video/2.mp4 | 71 | 1920x800 | 6.832s |
- 相比于目前开源的其他类似提取视频硬字幕的项目,本项目追求更快的速度、更小的资源消耗和更准确的识别率。
- 欢迎大家Star和PR。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)