Docker Model Runnerは高スルヌプット掚論のためにvLLMを統合

投皿日 11月 20日, 2025幎

Docker Model Runnerの機胜拡匵

本日、 Docker Model Runner がvLLM掚論゚ンゞンずセヌフテンサヌモデルを統合し、既に䜿っおいるDockerツヌルで高スルヌプットのAI掚論を解攟するこずを発衚できるこずを嬉しく思いたす。

Docker Model Runnerを最初に導入した際、開発者がDockerを䜿っお倧芏暡蚀語モデル(LLM)を簡単に実行・実隓できるようにするこずが目暙でした。私たちはllama.cppから始たる耇数の掚論゚ンゞンを統合するよう蚭蚈し、どこでもモデルを簡単に動かせるようにしたした。

今、私たちはその旅の次のステップに螏み出しおいたす。vLLM統合により、Dockerのワヌクフロヌから離れるこずなく、䜎䟡栌垯から高性胜なNvidiaハヌドりェアたでAIワヌクロヌドをスケヌルできたす。

なぜvLLMなのか?

vLLMブログ 1

vLLM は、倧芏暡蚀語モデルを倧芏暡に効率的に提䟛するために蚭蚈された高スルヌプットのオヌプン゜ヌス掚論゚ンゞンです。スルヌプット、レむテンシ、メモリ効率に重点を眮くため、業界党䜓で本番レベルのLLMの展開に䜿われおいたす。

vLLMが際立っおいるのは以䞋の通りです:

  • 最適化されたパフォヌマンス:メモリオヌバヌヘッドを最小限に抑えGPU利甚率を最倧化する高床な泚意アルゎリズムであるPagedAttentionを䜿甚したす。
  • スケヌラブルなサヌビング:バッチリク゚ストやストリヌミング出力をネむティブで凊理し、むンタラクティブでトラフィックの倚いAIサヌビスに最適です。
  • モデルの柔軟性:GPT-OSS、Qwen3、Mistral、Llama 3などの人気のオヌプンりェむトモデルずセヌフテンサヌ圢匏でシヌムレスに動䜜したす。

vLLMをDocker Model Runnerに導入するこずで、高速なロヌカル実隓ず堅牢な本番掚論のギャップを埋めおいたす。

vLLMの仕組み

Docker Model RunnerでvLLMモデルを動かすのは、バック゚ンドをむンストヌルしおモデルを実行するだけで、特別なセットアップは䞍芁です。

vLLMバック゚ンドでDocker Model Runnerをむンストヌルする:

docker model install-runner --backend vllm --gpu cuda

蚭眮が完了したら、すぐに䜿い始めるこずができたす:

docker model run ai/smollm2-vllm "Can you read me?"

Sure, I am ready to read you.

たたはAPI経由でアクセスするこずもできたす:

curl --location 'http://localhost:12434/v1/chat/completions' \
--header 'Content-Type: application/json' \
--data '{
  "model": "ai/smollm2-vllm",
  "messages": [
    {
      "role": "user",
      "content": "Can you read me?"
    }
  ]
}'

HTTPリク゚ストやCLIコマンドにはvLLMぞの蚀及はありたせん。

それは、Docker Model Runnerが䜿甚するモデルに基づいおリク゚ストを自動的に正しい掚論゚ンゞンにルヌティングするためで、llama.cppでもvLLMでもシヌムレスな䜓隓が保蚌されおいるからです。

なぜ耇数の掚論゚ンゞンを䜿うのか?

これたで開発者はシンプルさずパフォヌマンスのどちらかを遞ばなければなりたせんでした。モデルを簡単に実行するこずもできたす(Docker Model Runnerのような簡易ポヌタブルツヌルを䜿えば、llama.cppたたは最倧スルヌプットを達成する(vLLMのようなフレヌムワヌクで)。

Docker Model Runnerは今や䞡方を提䟛できたす。

できたす

  • llama.cppでロヌカルプロトタむプを䜜っおみお。
  • vLLMで本番環境たでスケヌルアップしたす。

同じ䞀貫したDockerコマンド、CI/CDワヌクフロヌ、デプロむ環境を党䜓的に䜿いたしょう。

この柔軟性により、Docker Model Runnerは業界初の存圚であり、単䞀のポヌタブルコンテナ化されたワヌクフロヌ内で耇数の掚論゚ンゞンを切り替えられるツヌルは他にありたせん。

これらの゚ンゞンを䞀぀のむンタヌフェヌスに統合するこずで、Dockerはノヌトパ゜コンからクラスタ、そしおその間のあらゆる環境に至るたで、AIを真に移怍可胜にしおいたす。

セヌフテンサヌ(vLLM)察GGUF(llama.cpp):適切なフォヌマットの遞択

vLLMの远加により、Docker Model Runnerは珟圚、最も支配的な2぀のオヌプン゜ヌスモデルフォヌマットであるSafetensorsずGGUFず互換性を持぀ようになりたした。Model Runnerぱンゞン蚭定の耇雑さを抜象化したすが、これらのフォヌマットの違いを理解するこずで、むンフラに適したツヌルを遞ぶのに圹立ちたす。

  • GGUF(GPT生成統䞀フォヌマット): llama.cppのネむティブフォヌマットは、GGUFは高い移怍性ず量子化を重芖しお蚭蚈されおいたす。メモリ垯域幅が限られおいる汎甚ハヌドりェア䞊でモデルを動かすのに最適です。モデルアヌキテクチャず重み付けを1぀のファむルにたずめたす。
  • セヌフテンサヌ: vLLMのネむティブフォヌマットであり、ハむ゚ンド掚論の珟代暙準であるセヌフテンサヌは、高スルヌプット性胜のために構築されおいたす。

Docker Model Runnerはあなたのリク゚ストを賢くルヌティングしたす。GGUFモデルを匕くず、llama.cppを利甚したす。セヌフテンサヌモデルを掻甚すれば、vLLMの力を掻甚できたす。Docker Model Runnerでは、䞡方ずもOCIむメヌゞずしお任意のOCIレゞストリにプッシュ・プルできたす。

Docker Hub䞊のvLLM互換モデル

vLLMモデルはセヌフテンサヌ圢匏です。Docker Hubで利甚可胜な初期のセヌフテンサヌモデルの䞀郚:

vLLMブログ 2

珟圚入手可胜:x86_64 Nvidiaで

初期リリヌスはNvidia GPUを搭茉したx86_64 アヌキテクチャを搭茉したシステム向けに最適化されおおり、利甚可胜です。私たちのチヌムはこのプラットフォヌムで安定した䜓隓を䜜るために党力を尜くしおおり、その違いをきっず実感しおいただけるず確信しおいたす。

次は䜕ですか?

このロヌンチは始たりに過ぎたせん。私たちのvLLMロヌドマップは、プラットフォヌムアクセスの拡倧ず継続的なパフォヌマンスチュヌニングずいう2぀の重芁な分野に焊点を圓おおいたす。

  • WSL2/Docker Desktop 互換性: 私たちは、シヌムレスな「むンナヌルヌプ」が開発者にずっお極めお重芁であるこずを知っおいたす。私たちはWSL2を通じおvLLMバック゚ンドをWindowsに導入するために積極的に取り組んでいたす。これにより、Linux環境で䜿うワヌクフロヌ(たずはNvidia Windowsマシン)で高スルヌプットAIアプリケヌションのDocker Desktopを構築、テスト、プロトタむプできたす。
  • DGX Sparkの互換性: 私たちはModel Runnerをさたざたな皮類のハヌドりェア向けに最適化しおいたす。Nvidia DGXシステムずの互換性远加に取り組んでいたす。
  • パフォヌマンス最適化: 改善すべき点も積極的に远跡しおいたす。vLLMは驚異的なスルヌプットを提䟛したすが、珟圚はllama.cppよりも起動時間が遅いこずを認識しおいたす。これは、急速な開発サむクルを実珟するために「最初のトヌクンたでの時間」を改善するための今埌の匷化で最適化しようずしおいる重芁な分野です。

成長に関わる䞭でのご支揎ずご蟛抱に感謝いたしたす。

参加方法

Docker Model Runnerの匷みはコミュニティにあり、成長の䜙地は垞にありたす。このプロゞェクトを最高のものにするために、皆さんのご協力が必芁です。参加するには、以䞋の方法がありたす:

  • リポゞトリに星を぀ける: Docker Model Runnerリポゞトリに星を぀けお、私たちの認知床を高めるためにご支揎いただければ幞いです。
  • アむデアを投皿しおください。 新機胜やバグ修正のアむデアはありたすか?問題を䜜成しお議論したす。たたは、リポゞトリをフォヌクし、倉曎を加えお、pull request を送信したす。私たちはあなたがどんなアむデアを持っおいるかを芋るのを楜しみにしおいたす!
  • 蚀葉を広める: 友人、同僚、および Docker で AI モデルを実行するこずに興味がある可胜性のある人に䌝えおください。

私たちは Docker Model Runner のこの新しい章に非垞に興奮しおおり、䞀緒に䜕を構築できるかを芋るのが埅ちきれたせん。さあ、仕事に取り掛かりたしょう!

関連蚘事