RapidVideOCR:视频硬字幕提取,自动生成对应srt和带有关键帧的docx文件

RapidVideOCR:视频硬字幕提取,自动生成对应srt和带有关键帧的docx文件,第1张

目录
      • RapidVideOCR
      • 整体框架
      • 未来的应用场景探索
      • 耗时基准
      • 写在最后

RapidVideOCR
  • 视频硬字幕提取,自动生成对应srt和带有关键帧的docx文件。采用OCR技术,离线CPU即可运行,,更快更准更方便

  • 支持字幕语言:中文 | 英文 | 日文 (其他可以支持的语言参见:支持语种列表)

  • 想法源自 videocr

  • 可加入QQ群:706807542

  • 更快更准确地提取内嵌在视频的字幕,并提供txt|SRT|docx三种格式

    • 更快:
      • 采用Decord作为读取视频的库,更快;对于整个输入的视频,并不全部提取,因为存在大量重复字幕内容;
      • 这里采用预先找到出现不同字幕的关键帧,再送入OCR部分,因此更快
    • 更准:整个项目完全为全离线CPU运行,OCR部分采用的是RapidOCR,模型均来自PaddleOCR。
      • 当然也可以在GPU运行,只要根据机器配置,安装对应版本的onnxruntime-gpu,即可自动在英伟达显卡上运行。具体教程参见:onnxruntime-gpu版推理配置
    • 更方便:采用大小仅为2M左右的ONNXRuntime推理引擎,不安装PaddlePaddle框架,部署更加方便
  • 🐱如果想要识别纯英文、日文的字幕,可以在main.py中更改对应模型和字典文件即可。

    det_model_path = "resources/models/ch_PP-OCRv2_det_infer.onnx"
    cls_model_path = "resources/models/ch_ppocr_mobile_v2.0_cls_infer.onnx"
    
    # 纯英文模型
    rec_model_path = "resources/models/en_number_mobile_v2.0_rec_infer.onnx"
    dict_path = "resources/en_dict.txt"
    
    # 日文
    rec_model_path = "resources/rapid_ocr/models/japan_rec_crnn.onnx"
    dict_path = "resources/rapid_ocr/japan_dict.txt"
    
整体框架

未来的应用场景探索
  • 基于视频文本OCR的视频内容理解,结合图像特征+图像中文本特征
  • 视频字幕自动翻译
  • 基于视频文本特征的视频检索
耗时基准
配置测试MP4总帧数每帧大小耗时(s)
Intel(R) Core(TM) i7-6700 CPU @3.40GHz 3.41 GHzassets/test_video/2.mp4711920x8004.681s
Intel(R) Core(TM) i5-4210M CPU @2.60GHz 2.59 GHzassets/test_video/2.mp4711920x8006.832s
写在最后
  • 相比于目前开源的其他类似提取视频硬字幕的项目,本项目追求更快的速度、更小的资源消耗和更准确的识别率。
  • 欢迎大家Star和PR。

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/langs/873485.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-05-13
下一篇 2022-05-13

发表评论

登录后才能评论

评论列表(0条)

保存