livekit/agents
agents
构建实时音视频 AI 代理的 Python 框架
Category
字幕、语音、视频处理和多媒体 AI 工具。
livekit/agents
构建实时音视频 AI 代理的 Python 框架
TEN-framework/ten-framework
构建低延迟实时多模态 AI 应用的开源框架
ValueCell-ai/valuecell
面向投资分析的 AI Agent 平台,支持多 Agent 协作研究
nadermx/backgroundremover
命令行 AI 背景移除工具,支持图片和视频
RVC-Project/Retrieval-based-Voice-Conversion-WebUI
35k+ Stars 的开源变声工具,AI 翻唱领域最流行的方案
ykdojo/claude-code-tips
从基础到高级的 Claude Code 使用技巧合集
alexta69/metube
Web 界面的 YouTube 视频下载工具,支持队列和格式选择
C4illin/ConvertX
16k+ Stars 的自托管文件转换器,支持 100+ 格式
advplyr/audiobookshelf
全功能自托管有声书和播客管理平台
svc-develop-team/so-vits-svc
基于 VITS 的简单易用歌声和语音转换框架
dataease/dataease
开源数据可视化与 BI 分析平台,Tableau 的开源替代方案
comfyanonymous/ComfyUI
节点式 AI 图像生成引擎,Stable Diffusion 工作流编排
binary-husky/gpt_academic
面向中文学术写作的 GPT 工具,支持论文润色、翻译和图表
gradio-app/gradio
用 Python 几行代码构建机器学习演示应用
fishaudio/fish-speech
高质量文本转语音,支持少样本克隆和多语言
openai/whisper
OpenAI 开源语音识别模型,支持多语言转录
jellyfin/jellyfin
自由软件媒体服务器,自托管的 Plex 替代方案
rany2/edge-tts
无需微软账号即可使用 Edge 在线语音合成服务
huggingface/diffusers
HuggingFace 官方扩散模型库
netease-youdao/EmotiVoice
网易有道出品:多声音、多情感控制的 TTS 引擎
myshell-ai/MeloTTS
MyShell.ai 出品的高质量多语言 TTS 库
roboflow/supervision
可复用的计算机视觉工具库
systran/faster-whisper
比 OpenAI Whisper 快 4 倍的语音识别实现
immich-app/immich
高性能自托管照片和视频管理解决方案,支持 AI 人脸识别和智能搜索
Comfy-Org/ComfyUI
最强大且模块化的 AI 内容创作 GUI 和后端
snakers4/silero-models
开箱即用的预训练文本转语音和语音识别模型
remotion-dev/remotion
使用 React、CSS 和 SVG 等 Web 技术以代码方式创建视频
blakeblackshear/frigate
本地 NVR 监控系统,集成 AI 物体检测,适合 Home Assistant
OpenRLHF/OpenRLHF
基于 Ray + vLLM 分布式架构的高性能 RLHF 框架,支持 PPO/GRPO/REINFORCE++ 等算法
ffmpegwasm/ffmpeg.wasm
WebAssembly 版本的 FFmpeg,在浏览器中处理音视频
mudler/LocalAI
在任意硬件上运行任何模型——LLM、视觉、语音、图像、视频,无需 GPU
78/xiaozhi-esp32
基于 ESP32 的开源 AI 语音聊天机器人,接入大模型
k2-fsa/sherpa-onnx
支持 STT、TTS、说话人识别的跨平台语音处理工具
OpenBMB/MiniCPM-o
手机可运行的轻量级多模态模型,支持图像和视频理解
Anjok07/ultimatevocalremovergui
基于 AI 的音频人声分离 GUI 工具,支持多种模型
microsoft/VibeVoice
微软开源的高质量语音合成模型
DIYgod/DPlayer
可爱的 HTML5 弹幕视频播放器
speechbrain/speechbrain
基于 PyTorch 的端到端语音处理工具包,支持 ASR、说话人识别等
FunAudioLLM/SenseVoice
阿里通义实验室的语音基础模型,支持 ASR、语种识别、情感识别和音频事件检测
inception-project/inception
提供智能辅助的语义标注和知识管理平台
QuentinFuxa/WhisperLiveKit
OpenAI Whisper 的实时流式语音转文字工具包
modelscope/FunClip
基于 AI 的视频自动精彩片段提取和剪辑工具
invoke-ai/InvokeAI
行业领先的 Stable Diffusion WebUI 和创意引擎
yl4579/StyleTTS2
通过风格扩散和对抗训练实现人类级别 TTS
Blaizzy/mlx-audio
基于 Apple MLX 的 TTS、STT 和语音转换库
OpenCut-app/OpenCut
免费开源的跨平台视频编辑器,CapCut 的开源替代方案
collabora/WhisperLive
基于 OpenAI Whisper 的实时语音识别,支持流式转录
modelscope/FunASR
阿里达摩院开源的工业级语音识别工具包,支持 ASR/VAD/标点恢复/说话人分离
AUTOMATIC1111/stable-diffusion-webui
最流行的 Stable Diffusion 图像生成 Web 界面
humanlayer/12-factor-agents
构建可靠 LLM 应用的 12 要素原则
Lightricks/LTX-Video
高质量开源视频生成模型,支持文本到视频和图像到视频
Uberi/speech_recognition
封装多个 STT 引擎的统一 Python 语音识别接口
google-ai-edge/mediapipe
Google 跨平台 ML 媒体处理框架,支持手势/人脸/姿态检测
abus-aikorea/voice-pro
面向创作者的 AI 语音处理 Gradio WebUI,支持 TTS、翻译和视频处理
WyattBlue/auto-editor
基于 AI 分析的自动视频编辑工具,消除无声片段
open-mmlab/Amphion
开源的音频、音乐和语音生成工具包
moonshine-ai/moonshine
超低延迟的语音转文本、意图识别和文本转语音
argmaxinc/argmax-oss-swift
Apple Silicon 设备上的端侧语音 AI 框架
unslothai/unsloth
在本地运行和训练文本、音频、嵌入、视觉模型的开源工具
THUDM/cogvideo
清华 THUDM 开源的视频生成模型系列