Local AI
LLaVA
开源视觉语言模型,具备 GPT-4 级别的多模态理解
质量分78
24,780 Stars
2024-08-12T09:52:38Z
unknown
hard
中文速读
LLaVA 是大型语言与视觉助手,通过视觉指令微调实现图像理解和对话能力。提供 HuggingFace 模型、在线 Demo 和 Colab 示例。学术项目性质,适合多模态 AI 研究和二次开发。
适合
- 做多模态 AI 研究的人员
- 需要视觉理解能力的开发者
不适合
- 只需要纯文本 LLM 的用户
- 需要生产级多模态服务的团队
标签
多模态视觉语言LLM学术研究