Skip to content

这是一个全自动(音频)视频翻译项目。利用Whisper识别声音,AI大模型翻译字幕,最后合并字幕视频,生成翻译后的视频。

License

Notifications You must be signed in to change notification settings

chenyme/Chenyme-AAVT

Folders and files

NameName
Last commit message
Last commit date

Latest commit

923691c · Aug 23, 2024
Aug 23, 2024
Aug 20, 2024
Aug 20, 2024
Aug 20, 2024
Aug 20, 2024
Aug 23, 2024
Aug 21, 2024
Aug 22, 2024
Aug 23, 2024
Aug 22, 2024
Jul 10, 2024
Aug 21, 2024
Aug 22, 2024
Dec 18, 2023
Aug 22, 2024
Aug 23, 2024
Aug 22, 2024
Aug 22, 2024
Aug 22, 2024

Repository files navigation



英文 下载 Latest Release PyPI - Version License 群组 Docker Image Version Open In Colab


Note

🌟 如果本项目对您有帮助,记得 Star 🌟 支持一下吧~

📝 推荐识别时使用 Large 模型以获取更好的体验!由于正在备考,更新速度会放缓,感谢理解!

📖 安装教程 | ❓ 常见问题 | 💬 电报群组


项目介绍

Chenyme-AAVT 全自动视频翻译项目 致力于提供一个简便高效且免费的媒体识别与翻译自动化流程,帮助您快速完成音视频字幕的识别、翻译和处理等多种功能,当然目前项目已经不仅仅是帮您识别并翻译声音,还可以自动化生成营销图文、对字幕单独翻译。计划未来会基于现有基本功能继续加入更多有意思的工具,比如 实时识别、口型校正、声音克隆、音色辨别 等等,敬请期待!

当前已支持的基本功能,非全部功能:


20240820210851.jpg


项目亮点

👉 TODO | 待办事项

识别相关

  • 更换更快的Whisper项目
  • 支持本地模型加载
  • 支持个人微调Whisper模型
  • VAD辅助优化
  • 字词级断句优化
  • 更多的语种识别
  • 音色辨别
  • 实时语音翻译

翻译相关

  • 翻译优化
  • 更多的语种翻译
  • 更多的翻译模型
  • 更多的翻译引擎
  • 支持本地大语言模型翻译

视频相关

  • 个性化字幕
  • 更多字幕格式
  • 字幕预览、实时修改
  • 自动化字幕文本校对
  • 双字幕
  • 视频中文配音
  • 声音克隆
  • 口型校对

图文博客

  • 生成图文
  • 更多写作风格
  • 优化生成效率
  • 提高成品率

其他

  • AI助手
  • 视频预览
  • 支持识别和翻译多种语言
  • 支持 全流程本地化、免费化部署
  • 支持对视频 一键生成博客内容、营销图文
  • 支持 自动化翻译二次修改字幕预览视频
  • 支持开启 GPU 加速VAD 辅助FFmpeg 加速
  • 支持使用 ChatGPTClaudeGeminiDeepSeek 等众多大模型翻译引擎

Warning

关于 dll 缺失的公告

以下解决方法经过本人验证可有效解决,麻烦给颗🌟Star吧!

 

1. ❌ fbgemm.dll 缺失。此为 pytorch 对 win 的 mkl 文件构建错误,官方已在 2.4.1 Beta 版本中修正,请遇到后重新 Install.bat,并在菜单栏选择 修复版本(2.4.1)修正

2. ❌ cudnn_ops_infer64_8.dll 缺失,导致启用 GPU 失败。请前往 Releases 中下载 CUDA_dll.zip 压缩包解压到CUDA目录 C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.4\bin 修复


Windows 部署

👉 前置环境:Python、FFmpeg、CUDA 说明

Python | 📖 教程

  • 💡 选择 Python > 3.8 的版本
  • 前往 Python 官网下载 安装程序
  • 运行安装,在安装时请点击 ADD TO PATH 选项

FFMpeg | 📖 教程

  • 💡 若您不知道如何安装编译,请直接在项目Release中的下载 Win 版本,自带编译后的FFMpeg
  • 前往 FFMpeg 官网下载编译好的 Windows 版本
  • 设置 FFmpeg 为环境变量

CUDA(CPU 可忽略) | 📖 教程

  • 💡 推荐使用版本为 CUDA11.8、12.1、12.4
  • 前往 CUDA 官网下载 CUDA 安装程序
  • 安装 CUDA

 


‼️ 请确保前置环境已准备好后再继续下面的步骤‼️

1. 运行部署脚本

  • 前往 Release 页面下载 Win 的最新发行版 (Win/Small)
  • 运行 1_Install.bat,等待脚本检查,通过后根据界面内提示选择版本安装

2. 运行项目Web

  • 运行 2_WebUI.bat
  • 等待 WebUI 自动拉起,或输入网址 localhost:8501
  • 项目验证密码 chenymeaavt(此为新版本的保护功能,可关闭)

Mac OS 部署

👉 前置环境:Python、Brew、FFMpeg 说明

Python

  • 选择 Python > 3.8 的版本
  • 前往 Python 官网下载 PGK 安装包
  • 运行安装,页面内选择标准安装

Brew

  • 💡 使用下面的命令进行一键安装安装 brew
    /bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
    

FFMpeg

  • 💡 使用下面的命令进行一键安装安装 FFMpeg
    brew install FFMpeg
    

 


‼️ 请确保前置环境已准备好后再继续下面的步骤‼️

1. 安装项目依赖

  • 前往 Release 页面下载 Mac 的最新发行版 (Mac/Small)
cd Chenyme-AAVT
pip3 install -r requirements.txt

2. 运行项目Web

streamlit run Chenyme-AAVT.py
  • 等待 WebUI 自动拉起,或输入网址 localhost:8501
  • 项目验证密码 chenymeaavt(此为新版本的保护功能,可关闭)

Docker 部署

Docker Image Version

感谢 @Eisaichen 协助构建此镜像

docker

docker pull chenyme/chenyme-aavt:latest
  • 完成后,输入 <您的服务器IP>:8501 访问
  • 项目验证密码 chenymeaavt(此为新版本的保护功能,可关闭)

docker-compose

git clone https://github.com/Chenyme/Chenyme-AAVT
cd Chenyme-AAVT
docker-compose up -d
  • 完成后,输入 <您的服务器IP>:8501 访问
  • 项目验证密码 chenymeaavt(此为新版本的保护功能,可关闭)

Linux 部署

💡此版本为 AAVT V0.8.6 的 Linux CUDA 12.1 Docker 版本,最新版本为 V0.9.0

感谢 @dhlsam 提供此版本

具体使用方法,请查阅:📖 issues/36


Google Colab 部署

Open In Colab

感谢 @Kirie233 提供 Colab 版本

具体使用方法,请查阅:📖 AAVT.ipynb


感谢项目的贡献者


Star History

Star History Chart


主页BOT


11


部分设置


12


音频识别


13


视频识别


14


图文博客


15


字幕翻译


16


声音模拟


17


About

这是一个全自动(音频)视频翻译项目。利用Whisper识别声音,AI大模型翻译字幕,最后合并字幕视频,生成翻译后的视频。

Topics

Resources

License

Stars

Watchers

Forks

Packages

No packages published