其他
首发!太酷啦,没有比之更快的语音识别了!
而且还是“手把手喂饭”的那种教程。
01
项目说明
1.1、命令行软件
图形化软件的特点,是「所见即所得」。
它将所有的内容都放在眼前,我们只需要用鼠标点几下,即可完成任务,上手难度简单。
可一旦你掌握后,你在这上面花费的时间,将无限趋近于零。
1.2、安装 Python
而要使用 Whisper,我们还需要一些前置安装,这其中就包括 Python 和 FFmpeg。
Windows 64位:
https://www.python.org/ftp/python/3.10.10/python-3.10.10-amd64.exe
Windows 32位:
https://www.python.org/ftp/python/3.10.10/python-3.10.10.exe
Win7 64位:
https://www.python.org/ftp/python/3.8.8/python-3.8.8-amd64.exe
Win7 32位:
https://www.python.org/ftp/python/3.8.8/python-3.8.8.exe
Mac:
https://www.python.org/ftp/python/3.10.10/python-3.10.10-macos11.pkg
1.3、安装 FFmpeg
同样,Whisper 还需要使用 FFmpeg 来提取声音数据,使用时不需要打开,它会自动调用。
Windows:
https://www.gyan.dev/ffmpeg/builds/ffmpeg-release-essentials.zip
Mac:
https://evermeet.cx/ffmpeg/ffmpeg-6.0.zip
如果遇到下载问题,或者你还可以回复关键字 A25 下载,奶酪已经把它们打包好了,你可以一键下载。
1.4、添加环境变量
下载 FFmpeg 后,我们不需要进行安装,而是要添加环境变量。
02
安装框架
2.1、框架是什么?
框架(Framework),通常是指某个领域里的通用解决方案。
2.2、深度学习框架
而在人工智能领域,深度学习的框架主要包括:TensorFlow、PyTorch、和 JAX。
2.3、Whisper 框架
不过,考虑到 JAX 框架还不成熟,而且在 Windows 上无法原生运行,上手难度也大,对普通用户不友好。
https://github.com/Softcatala/whisper-ctranslate2
03
Whisper-CT2
3.1、下载安装
只需要在 CMD 窗口或者终端输入以下命令即可完成安装。
安装:pip install whisper-ctranslate2
升级:pip install whisper-ctranslate2 --upgrade
卸载:pip uninstall whisper-ctranslate2
注意:如果是 MacOS 的话,需要将 pip 改为 pip3
安装完成后,在CMD 窗口或者终端再次输入"whisper-ctranslate2" ,如果有返回内容,则说明安装成功。
3.2、命令参数
Whisper-CTranslate2 兼容原版 Whisper 命令,只需要运行
whisper-ctranslate2 audio.mp3
即可进行转录。
whisper-ctranslate2 audio.mp3 --命令参数
--task
指定转录方式,默认使用
--task transcribe
转录模式,--task translate
则为翻译模式,目前只支持英文。--model small
,Whisper 还有英文专用模型,就是在名称后加上 .en,这样速度更快。--language Chinese
。auto
自动选择, --device cuda
则为显卡,cpu
就是 CPU, mps
为苹果 M1 芯片。--vad_filter True
后,能解决“幻听”,还有字幕不对轨的问题。--live_transcribe True --language Chinese
后,即可用麦克风进行实时转录。whisper-ctranslate2 -h
或者 --help
即可查看。3.3、使用方法
组合你需要的命令参数,在 CMD 窗口或终端输入即可进行转录,如果第一次使用,则会先下载 Whisper 模型。
Mac:~/.cache/huggingface
Windows:C:\Users\<你的用户名>\.cache\huggingface
04
语音一键识别
4.1、一键生成字幕
我们可以将常用的 Whisper 命令,用 bat 批处理文件保存起来,然后将音/视频文件拖入到 bat 文件上一键转录。
4.2、一键生成文案
如果你不是想生成字幕,而是想把视频里的台词文案导出为 txt 文件,则可以选择用这个 .bat 文件。
4.3、一键歌曲字幕
上面的 bat 文件,默认都启用了 --vad_filter 参数,它可以解决转录“幻听”的问题,但它不适用于歌曲转录。
05
BT 下载的思路
甚是美哉!
结尾
回复关键字
A
查看本系列的所有文章,
回复关键字
A25
获取本文提到的所有资源
专栏介绍:
看完文章:
2、写留言,有问题写评论,我会尽可能回复。