在上述基本功能的基础上,FunClip 有以下特色:
-
FunClip 融合了众多高级语言模型的调用机制,并开放了灵活的 prompt 设置功能,旨在探索利用大型语言模型进行视频编辑的新方法。
-
FunClip 采用了阿里巴巴开源的顶尖工业级语音识别模型——Paraformer-Large,它在开源中文 ASR 模型中表现出色,Modelscope 的下载次数已超过 1300 万次,同时能够精确地预测出时间戳。
-
此外,FunClip 还整合了 SeACo-Paraformer 的热词定制功能,在语音识别过程中可以特别指定实体词、人名等作为热词,从而显著提高识别的准确性。
-
FunClip 还配备了 CAM++的说话人识别模型,用户可以利用自动识别出的说话人 ID 作为编辑的依据,轻松裁剪出特定说话人的部分。
-
通过 Gradio 的交互界面,用户可以轻松实现上述功能,安装过程简洁,操作便捷,并且支持在服务器端部署,通过网页进行操作。
-
FunClip 还支持多段视频的自由编辑,并且能够自动生成完整的视频 SRT 字幕文件以及目标剪辑片段的 SRT 字幕,简化了整个编辑流程。
安装?

# 克隆 funclip 仓库
git clone https://github.com/alibaba-damo-academy/FunClip.git
cd FunClip
# 安装相关 Python 依赖
pip install -r ./requirements.txt
安装 imagemagick
希望使用自动生成字幕的视频裁剪功能,那么需要安装 imagemagick:
-
Ubuntu
apt-get -y update && apt-get -y install ffmpeg imagemagick
sed -i 's/none/read,write/g' /etc/ImageMagick-6/policy.xml
-
MacOS
brew install imagemagick
sed -i 's/none/read,write/g' /usr/local/Cellar/imagemagick/7.1.1-8_1/etc/ImageMagick-7/policy.xml
-
Windows
https://imagemagick.org/script/download.php#windows
使用 FunClip 首先使用下面的命令启动 FunClip:
python funclip/launch.py
随后在浏览器中访问localhost:7860 就能进入首页。 然后按如下步骤即可进行视频剪辑:
-
上传你的视频(或使用下方的视频用例)
-
设置热词,设置文件输出路径(保存识别结果、视频等)
-
点击识别按钮获取识别结果,或点击识别+区分说话人在语音识别基础上识别说话人 ID
-
将识别结果中的选段复制到对应位置,或者将说话人 ID 输入到对应为止
-
配置剪辑参数,偏移量与字幕设置等
-
点击“裁剪”或“裁剪+字幕”按钮


我们可以上传自己的视频或者音频,也可以使用 FunClip 提供的 demo: