Openai Whisper
OpenAI Whisper:使用 Whisper 模型进行视频语音识别和转录。
clawhub install openai-whisper对视频进行转录和说话人分割处理
Transcribe videos and perform speaker diarization on audio content
# 安装 Skill(会下载 SKILL.md 到 .claude/skills/) clawhub install moss-transcribe-diarize # 之后直接对 Claude 说"用 moss-transcribe-diarize 帮我…"即可
# 同样的安装命令,兼容所有支持 SKILL.md 的 AI 编程工具 clawhub install moss-transcribe-diarize
此 Skill 兼容 OpenClaw 标准。 安装后自动生成 SKILL.md 文件,任何支持 OpenClaw 协议的 AI Agent(Claude Code、Cursor、Windsurf 等)均可直接调用。
需要调用第三方语音识别API(如Whisper API或本地模型),本地运行需4GB+ RAM
scripts/transcribe.py。python scripts/transcribe.py --audio-url "https://example.com/audio.mp3" --out "result.json"
python scripts/transcribe.py --file "/path/to/meeting.mp4" --out "result.json"
python scripts/transcribe.py --audio-data "data:audio/wav;base64,..." --out "result.json"
--segments-format text
- JSON 数组(推荐,含 speaker):--segments-format json
- 紧凑 JSON 串:--segments-format compactMOSS_API_KEY → MOSI_TTS_API_KEY → MOSI_API_KEY。如果都缺失,请提醒用户。moss-transcribe-diarize。https://studio.mosi.cn/v1/audio/transcriptions(不再暴露自定义 endpoint 参数)。*.json:原始响应
- *.segments.*:分段结果(格式由 --segments-format 决定,含 speaker)
- *.by_speaker.txt:按说话人汇总clawhub moss-transcribe-diarize --input conference.mp4 --output result.json --diarize true --language auto音频转录:使用本地 Whisper(Docker)将音频文件转录为文本,支持 .mp3、.m4a、.ogg、.wav、.webm 等多种格式。
Transcribe audio files to text using local Whisper (Docker). Use when receiving voice messages, audio files (.mp3, .m4a, .ogg, .wav, .webm), or when asked to transcribe audio content.
clawhub install transcribe