コンテナを超えて:llama.cppがDocker Hubから直接GGUFモデルを取得するようになりました

投稿日: 9月 19, 2025

ローカル AI の世界は信じられないほどのペースで進んでおり、この革命の中心にあるのは llama.cpp です。大規模言語モデル (LLM) を日常のハードウェアにもたらす強力な C++ 推論エンジン (また、 Docker Model Runner を強化する推論エンジンでもあります)。開発者は、そのパフォーマンスとシンプルさでllama.cppを気に入っています。そして、私たちDockerは、開発者のワークフローをよりシンプルにすることに夢中になっています。

そのため、llama.cppで革新的な新機能を発表できることを嬉しく思います。Docker Hubから直接GGUFモデルをプルして実行するためのネイティブサポート。

これは、Docker コンテナ ーで llama.cppを実行することではありません。これは、コンテナー イメージの場合と同様に、Docker Hub を AI モデル用の強力でバージョン管理された一元化されたリポジトリとして使用することです。

AI モデルに Docker Hub を使用する理由

AI モデルの管理は面倒な場合があります。多くの場合、直接ダウンロード リンク、手動バージョン追跡、散在するファイルに対処します。Docker Hub と統合することで、llama.cpp は成熟した堅牢なエコシステムを活用してこれらの問題を解決します。

  • 堅牢なバージョン管理: 画像に使用している使い慣れた repository:tag 構文がモデルにも適用されるようになりました。gemma3 とsmollm2を簡単に切り替えることができます:135M-Q4_0 完全な自信を持って。
  • 一元化と検出可能: Docker Hub は、チームのモデルの正規ソースになることができます。共有ドライブやチャット履歴で「最新」バージョンを探す必要はもうありません。
  • 簡素化されたワークフロー: curl、wget、または Web UI からの手動ダウンロードは忘れてください。1 つのコマンド ライン フラグで、検出、ダウンロード、およびキャッシュが処理されるようになりました。
  • 再現性: 不変のダイジェストまたはタグを使用してモデルを参照することで、開発環境、テスト環境、および本番環境ですべてまったく同じアーティファクトが使用されていることが保証され、より一貫性のある再現性のある結果が得られます。

内部での仕組み 

この新機能は、Dockerイメージの基盤であるOpen Container Initiative(OCI)仕様を巧みに使用します。GGUFモデル・ファイルは、OCIマニフェスト内のレイヤーとして扱われ、application/vnd.docker.ai.gguf.v3などの特別なメディア・タイプによって識別されます。OCI標準がモデルにとって重要である理由の詳細については、 ブログをご覧ください。

新しい –docker-repo フラグを使用すると、llama.cpp は次の手順を実行します。

  1. 認証: 最初に Docker レジストリに認証トークンを要求して、ダウンロードを承認します。
  2. マニフェストフェッチ: 次に、指定されたモデルとタグのマニフェストを取得します (例: ai/gemma3:latest)。
  3. レイヤー検出: マニフェストを解析し、正しいメディアタイプを探すことで、GGUF モデルファイルを含む特定のレイヤーを見つけます。
  4. BLOB ダウンロード: レイヤーの一意のダイジェスト (sha256 ハッシュ) を使用して、レジストリの BLOB ストレージからモデル ファイルを直接ダウンロードします。
  5. キャッシュ: モデルはローカル キャッシュに保存されるため、後続の実行は瞬時に行われます。

このプロセス全体はシームレスで、バックグラウンドで自動的に行われます。

数秒で開始

試してみる準備はできましたか?llama.cpp の 最近のビルド を使用している場合、1 つの簡単なコマンドで Docker Hub からモデルを提供できます。新しいフラグは –docker-repo (または -dr) です。

Docker Hubから入手できるモデルである gemma3を実行しましょう。

# Now, serve a model from Docker Hub!
llama-server -dr gemma3

これを初めて実行すると、ダウンロードの進行状況llama.cpp記録が表示されます。その後、キャッシュされたバージョンが使用されます。とても簡単です!基本編成はai/なので、gemma3 はai/gemma3に解決される。デフォルトのタグは :latest ですが、タグは :1B-Q4_K_M のように指定できます。

OCIのプッシュおよびプル・サポートを備えた完全なDocker統合エクスペリエンスについては、Docker Model Runnerをお試しください。チャットに相当する docker モデル ランナーは次のとおりです。

# Pull, serve and chat to a model from Docker Hub!
docker model run ai/gemma3

AIモデル配布の未来

この統合は、AI アーティファクトの配布と管理に対する考え方の大きな変化を表しています。Docker HubなどのOCI準拠のレジストリを使用することで、AIコミュニティは、より堅牢で再現性があり、スケーラブルなMLOpsパイプラインを構築できます。

これはほんの始まりにすぎません。私たちは、モデル、データセット、およびそれらを実行するコードがすべて、Dockerを何百万人もの人々にとって不可欠なツールにしているのと同じ合理化された開発者フレンドリーなワークフローを通じて管理される未来を思い描いています。

最新のllama.cppをチェックして試してみて、 今すぐ Docker Hub で増え続けるモデルのコレクションを探索してください。

さらに詳しく

  • Docker Model Runner のクイックスタートガイドをお読みください。
  • Model Runner GitHub リポジトリにアクセスしてください。Docker Model Runner はオープンソースであり、コミュニティからのコラボレーションと貢献を歓迎します。
  • Docker Hub でキュレーションされたモデルを検出する

投稿カテゴリ

関連記事