返回搜索GitHub

自托管应用 / Local AI

llama.cpp

在消费级硬件上高效运行 LLM 的 C++ 推理引擎

质量分92
70,000 Stars
unknown
medium

中文速读

llama.cpp 是在 CPU 和消费级 GPU 上高效运行大语言模型的 C++ 实现,支持 GGUF 模型格式。支持 brew/nix/winget 安装、Docker 运行和源码编译。7万星,是本地 LLM 推理领域的标杆项目。

适合

  • 想在本地运行 LLM 的开发者
  • 没有云端 GPU 预算的团队

不适合

  • 需要云端大规模推理的团队
  • 只需要 API 服务的用户

标签

本地推理LLMGGUFCPU 推理C++