ggml-org / llama.cpp

ggml-org / llama.cpp

llama.cpp Manifesto / ggml / ops LLM inference in C/C++ Recent API changes Changelog for libllama API Changelog for llama-server REST API Hot topics Hugging Face cache migration: models downloaded with -hf are now stored in the standard Hugging Face cache directory, enabling sharing with other HF tools. guide : using the new WebUI of llama.cpp guide : running gpt-oss with llama.cpp [FEEDBACK] Better packaging for llama.cpp to support downstream consumers 🤗 Support for the gpt-oss model with native MXFP4 format has been added | PR | Collaboration with NVIDIA | Comment Multimodal support arrived in llama-server: #12898 | documentation VS Code extension for FIM completions: https://github.com/ggml-org/llama.vscode Vim/Neovim plugin for FIM completions: https://github.com/ggml-org/llama.vim Hugging Face Inference Endpoints now support GGUF out of the box! #9669 Hugging Face GGUF editor: discussion | tool

llama.cpp 宣言 / ggml / C/C++ での LLM 推論操作。最近の API 変更、libllama API の変更履歴、llama-server REST API の変更履歴。注目トピック:Hugging Face キャッシュの移行。-hf でダウンロードされたモデルが標準の Hugging Face キャッシュディレクトリに保存されるようになり、他の HF ツールとの共有が可能になりました。ガイド:llama.cpp の新しい WebUI の使用方法、gpt-oss を llama.cpp で実行する方法。[フィードバック] 下流のコンシューマーをサポートするための llama.cpp のパッケージング改善。🤗 ネイティブ MXFP4 形式の gpt-oss モデルのサポートが追加されました | PR | NVIDIA とのコラボレーション | コメント。llama-server にマルチモーダルサポートが追加されました: #12898 | ドキュメント。FIM 補完用の VS Code 拡張機能: https://github.com/ggml-org/llama.vscode。FIM 補完用の Vim/Neovim プラグイン: https://github.com/ggml-org/llama.vim。Hugging Face Inference Endpoints が GGUF を標準サポートしました! #9669。Hugging Face GGUF エディタ: ディスカッション | ツール。

Quick start

Getting started with llama.cpp is straightforward. Here are several ways to install it on your machine:

  • Install llama.cpp using brew, nix or winget
  • Run with Docker - see our Docker documentation
  • Download pre-built binaries from the releases page
  • Build from source by cloning this repository - check out our build guide

クイックスタート

llama.cpp を始めるのは簡単です。マシンにインストールする方法はいくつかあります:

  • brew、nix、または winget を使用してインストールする
  • Docker で実行する(Docker ドキュメントを参照)
  • リリースページからビルド済みのバイナリをダウンロードする
  • このリポジトリをクローンしてソースからビルドする(ビルドガイドを参照)

Once installed, you’ll need a model to work with. Head to the Obtaining and quantizing models section to learn more. Example command:

# Use a local model file
llama-cli -m my_model.gguf
# Or download and run a model directly from Hugging Face
llama-cli -hf ggml-org/gemma-3-1b-it-GGUF
# Launch OpenAI-compatible API server
llama-server -hf ggml-org/gemma-3-1b-it-GGUF

インストールが完了したら、モデルが必要です。「モデルの取得と量子化 (Obtaining and quantizing models)」セクションで詳細を確認してください。 コマンド例:

# ローカルのモデルファイルを使用
llama-cli -m my_model.gguf
# または Hugging Face から直接モデルをダウンロードして実行
llama-cli -hf ggml-org/gemma-3-1b-it-GGUF
# OpenAI 互換の API サーバーを起動
llama-server -hf ggml-org/gemma-3-1b-it-GGUF

Description

The main goal of llama.cpp is to enable LLM inference with minimal setup and state-of-the-art performance on a wide range of hardware - locally and in the cloud.

  • Plain C/C++ implementation without any dependencies
  • Apple silicon is a first-class citizen - optimized via ARM NEON, Accelerate and Metal frameworks
  • AVX, AVX2, AVX512 and AMX support for x86 architectures
  • RVV, ZVFH, ZFH, ZICBOP and ZIHINTPAUSE support for RISC-V architectures
  • 1.5-bit, 2-bit, 3-bit, 4-bit, 5-bit, 6-bit, and 8-bit integer quantization for faster inference and reduced memory use
  • Custom CUDA kernels for running LLMs on NVIDIA GPUs (support for AMD GPUs via HIP and Moore Threads GPUs via MUSA)
  • Vulkan and SYCL backend support
  • CPU+GPU hybrid inference to partially accelerate models larger than the total VRAM capacity The llama.cpp project is the main playground for developing new features for the ggml library.

説明

llama.cpp の主な目的は、ローカルおよびクラウド上の幅広いハードウェアにおいて、最小限のセットアップで最先端のパフォーマンスによる LLM 推論を実現することです。

  • 依存関係のない純粋な C/C++ 実装
  • Apple シリコンをファーストクラスでサポート(ARM NEON、Accelerate、Metal フレームワークで最適化)
  • x86 アーキテクチャ向けの AVX、AVX2、AVX512、AMX サポート
  • RISC-V アーキテクチャ向けの RVV、ZVFH、ZFH、ZICBOP、ZIHINTPAUSE サポート
  • 推論の高速化とメモリ使用量削減のための 1.5bit、2bit、3bit、4bit、5bit、6bit、8bit 整数量子化
  • NVIDIA GPU で LLM を実行するためのカスタム CUDA カーネル(HIP 経由の AMD GPU、MUSA 経由の Moore Threads GPU もサポート)
  • Vulkan および SYCL バックエンドのサポート
  • VRAM 容量を超えるモデルを部分的に高速化する CPU+GPU ハイブリッド推論 llama.cpp プロジェクトは、ggml ライブラリの新機能を開発するための主要な遊び場です。