返回发现

Category

视频 / 音频 AI

字幕、语音、视频处理和多媒体 AI 工具。

60 个项目

按质量分排序

livekit/agents

agents

构建实时音视频 AI 代理的 Python 框架

100 质量分0

TEN-framework/ten-framework

ten-framework

构建低延迟实时多模态 AI 应用的开源框架

100 质量分0

ValueCell-ai/valuecell

valuecell

面向投资分析的 AI Agent 平台,支持多 Agent 协作研究

100 质量分0

nadermx/backgroundremover

backgroundremover

命令行 AI 背景移除工具,支持图片和视频

100 质量分0

RVC-Project/Retrieval-based-Voice-Conversion-WebUI

Retrieval-based-Voice-Conversion-WebUI

35k+ Stars 的开源变声工具,AI 翻唱领域最流行的方案

100 质量分0

ykdojo/claude-code-tips

claude-code-tips

从基础到高级的 Claude Code 使用技巧合集

100 质量分0

alexta69/metube

metube

Web 界面的 YouTube 视频下载工具,支持队列和格式选择

100 质量分0

C4illin/ConvertX

ConvertX

16k+ Stars 的自托管文件转换器,支持 100+ 格式

100 质量分0

advplyr/audiobookshelf

audiobookshelf

全功能自托管有声书和播客管理平台

100 质量分0

svc-develop-team/so-vits-svc

so-vits-svc

基于 VITS 的简单易用歌声和语音转换框架

93 质量分0

dataease/dataease

dataease

开源数据可视化与 BI 分析平台,Tableau 的开源替代方案

92 质量分0

comfyanonymous/ComfyUI

ComfyUI

节点式 AI 图像生成引擎,Stable Diffusion 工作流编排

90 质量分60,000可试用

binary-husky/gpt_academic

gpt_academic

面向中文学术写作的 GPT 工具,支持论文润色、翻译和图表

88 质量分70,621可试用

gradio-app/gradio

gradio

用 Python 几行代码构建机器学习演示应用

88 质量分0

fishaudio/fish-speech

fish-speech

高质量文本转语音,支持少样本克隆和多语言

86 质量分0

openai/whisper

whisper

OpenAI 开源语音识别模型,支持多语言转录

85 质量分65,000可试用

jellyfin/jellyfin

jellyfin

自由软件媒体服务器,自托管的 Plex 替代方案

85 质量分35,000可试用

rany2/edge-tts

edge-tts

无需微软账号即可使用 Edge 在线语音合成服务

85 质量分0

huggingface/diffusers

diffusers

HuggingFace 官方扩散模型库

84 质量分33,564可试用

netease-youdao/EmotiVoice

EmotiVoice

网易有道出品:多声音、多情感控制的 TTS 引擎

84 质量分0

myshell-ai/MeloTTS

MeloTTS

MyShell.ai 出品的高质量多语言 TTS 库

83 质量分0

roboflow/supervision

supervision

可复用的计算机视觉工具库

82 质量分38,349可试用

systran/faster-whisper

faster-whisper

比 OpenAI Whisper 快 4 倍的语音识别实现

82 质量分15,000可试用

immich-app/immich

immich

高性能自托管照片和视频管理解决方案,支持 AI 人脸识别和智能搜索

82 质量分0

Comfy-Org/ComfyUI

ComfyUI

最强大且模块化的 AI 内容创作 GUI 和后端

82 质量分0

snakers4/silero-models

silero-models

开箱即用的预训练文本转语音和语音识别模型

82 质量分0

remotion-dev/remotion

remotion

使用 React、CSS 和 SVG 等 Web 技术以代码方式创建视频

82 质量分0

blakeblackshear/frigate

frigate

本地 NVR 监控系统,集成 AI 物体检测,适合 Home Assistant

82 质量分0

OpenRLHF/OpenRLHF

OpenRLHF

基于 Ray + vLLM 分布式架构的高性能 RLHF 框架,支持 PPO/GRPO/REINFORCE++ 等算法

82 质量分0

ffmpegwasm/ffmpeg.wasm

ffmpeg.wasm

WebAssembly 版本的 FFmpeg,在浏览器中处理音视频

82 质量分0

mudler/LocalAI

LocalAI

在任意硬件上运行任何模型——LLM、视觉、语音、图像、视频,无需 GPU

81 质量分0

78/xiaozhi-esp32

xiaozhi-esp32

基于 ESP32 的开源 AI 语音聊天机器人,接入大模型

80 质量分0

k2-fsa/sherpa-onnx

sherpa-onnx

支持 STT、TTS、说话人识别的跨平台语音处理工具

80 质量分0

OpenBMB/MiniCPM-o

MiniCPM-o

手机可运行的轻量级多模态模型,支持图像和视频理解

80 质量分0

Anjok07/ultimatevocalremovergui

ultimatevocalremovergui

基于 AI 的音频人声分离 GUI 工具,支持多种模型

80 质量分0

microsoft/VibeVoice

VibeVoice

微软开源的高质量语音合成模型

80 质量分0

DIYgod/DPlayer

DPlayer

可爱的 HTML5 弹幕视频播放器

80 质量分0

speechbrain/speechbrain

speechbrain

基于 PyTorch 的端到端语音处理工具包,支持 ASR、说话人识别等

79 质量分11,528可试用

FunAudioLLM/SenseVoice

SenseVoice

阿里通义实验室的语音基础模型,支持 ASR、语种识别、情感识别和音频事件检测

79 质量分8,125可试用

inception-project/inception

inception

提供智能辅助的语义标注和知识管理平台

79 质量分0

QuentinFuxa/WhisperLiveKit

WhisperLiveKit

OpenAI Whisper 的实时流式语音转文字工具包

78 质量分10,269可试用

modelscope/FunClip

FunClip

基于 AI 的视频自动精彩片段提取和剪辑工具

78 质量分5,587可试用

invoke-ai/InvokeAI

InvokeAI

行业领先的 Stable Diffusion WebUI 和创意引擎

78 质量分0

yl4579/StyleTTS2

StyleTTS2

通过风格扩散和对抗训练实现人类级别 TTS

78 质量分0

Blaizzy/mlx-audio

mlx-audio

基于 Apple MLX 的 TTS、STT 和语音转换库

78 质量分0

OpenCut-app/OpenCut

OpenCut

免费开源的跨平台视频编辑器,CapCut 的开源替代方案

78 质量分0

collabora/WhisperLive

WhisperLive

基于 OpenAI Whisper 的实时语音识别,支持流式转录

78 质量分0

modelscope/FunASR

FunASR

阿里达摩院开源的工业级语音识别工具包,支持 ASR/VAD/标点恢复/说话人分离

78 质量分0

AUTOMATIC1111/stable-diffusion-webui

stable-diffusion-webui

最流行的 Stable Diffusion 图像生成 Web 界面

77 质量分162,738

humanlayer/12-factor-agents

12-factor-agents

构建可靠 LLM 应用的 12 要素原则

77 质量分19,669可试用

Lightricks/LTX-Video

LTX-Video

高质量开源视频生成模型,支持文本到视频和图像到视频

76 质量分10,222可试用

Uberi/speech_recognition

speech_recognition

封装多个 STT 引擎的统一 Python 语音识别接口

76 质量分8,963可试用

google-ai-edge/mediapipe

mediapipe

Google 跨平台 ML 媒体处理框架,支持手势/人脸/姿态检测

76 质量分0

abus-aikorea/voice-pro

voice-pro

面向创作者的 AI 语音处理 Gradio WebUI,支持 TTS、翻译和视频处理

76 质量分0

WyattBlue/auto-editor

auto-editor

基于 AI 分析的自动视频编辑工具,消除无声片段

75 质量分0

open-mmlab/Amphion

Amphion

开源的音频、音乐和语音生成工具包

75 质量分0

moonshine-ai/moonshine

moonshine

超低延迟的语音转文本、意图识别和文本转语音

75 质量分0

argmaxinc/argmax-oss-swift

argmax-oss-swift

Apple Silicon 设备上的端侧语音 AI 框架

75 质量分0

unslothai/unsloth

unsloth

在本地运行和训练文本、音频、嵌入、视觉模型的开源工具

74 质量分0

THUDM/cogvideo

cogvideo

清华 THUDM 开源的视频生成模型系列

72 质量分0