新しい NVIDIA DGX Spark 上の Docker Model Runner: AI をローカルで開発するための新しいパラダイム

投稿日 10月 13, 2025

エミリー・ケーシー

NVIDIA DGX™ Spark のサポートを Docker Model Runner に導入できることを嬉しく思います。新しい NVIDIA DGX Spark は驚異的なパフォーマンスを提供し、Docker Model Runner によりアクセスできるようになります。Model Runner を使用すると、すでに信頼しているのと同じ直感的な Docker エクスペリエンスを使用して、ローカルマシン上でより大きなモデルを簡単に実行および反復処理できます。

この投稿では、DGX Spark と Docker Model Runner がどのように連携してローカルモデル開発をより迅速かつ簡単に行うかを示し、開梱エクスペリエンス、Model Runner のセットアップ方法、実際の開発者ワークフローでの使用方法について説明します。

NVIDIA DGX Spark とは

NVIDIA DGX Spark は、DGX ファミリーの最新メンバーであり、ローカルモデル開発に驚異的なパフォーマンスを提供する Grace Blackwell GB10 Superchip を搭載したコンパクトなワークステーションクラスの AI システムです。研究者や開発者向けに設計されており、クラウドに依存することなく、大規模モデルのプロトタイピング、微調整、提供をすべて迅速かつ簡単に行うことができます。

ここ Docker では、幸運にも DGX Spark の試作バージョンを入手することができました。そして、はい、NVIDIA の発売資料に見られるのと同じくらい、実際に見るとあらゆる点で印象的です。

ローカル AI モデルを実行する理由と、Docker Model Runner と NVIDIA DGX Spark でそれを簡単にする方法

Dockerやより広範な開発者コミュニティの多くは、ローカルAIモデルを実験しています。ローカルで実行することには、明らかな利点があります。

データのプライバシーと制御: 外部 API 呼び出しはありません。すべてがマシンにとどまります
オフラインでの可用性:切断されているときでも、どこからでも作業できます
カスタマイズの容易さ: リモートインフラストラクチャに依存せずに、プロンプト、アダプター、または微調整されたバリアントを試すことができます

しかし、おなじみのトレードオフもあります。

ローカル GPU とメモリは、大規模なモデルでは制限される可能性があります
CUDA、ランタイム、依存関係の設定には、多くの場合、時間がかかります
AI ワークロードのセキュリティと分離の管理は複雑になる場合があります

ここで DGX Spark と Docker Model Runner (DMR) が威力を発揮します。DMRは、Docker DesktopまたはDocker Engineと完全に統合された、サンドボックス環境でAIモデルを実行するための簡単で安全な方法を提供します。DGX Spark の NVIDIA AI ソフトウェアスタックと大容量 128GB ユニファイドメモリと組み合わせると、プラグアンドプレイの GPU アクセラレーションと Docker レベルのシンプルさという両方の長所が得られます。

NVIDIA DGX Spark の開梱

このデバイスは、よく梱包され、洗練された、そして驚くほど小さく、サーバーというよりミニワークステーションに似ていました。

セットアップはさわやかで簡単で、電源、ネットワーク、周辺機器を接続し、NVIDIA ドライバー、CUDA、AI ソフトウェアスタックがプリインストールされた NVIDIA DGX OS で起動します。

ネットワークに接続したら、SSH アクセスを有効にすると、Spark を既存のワークフローに簡単に統合できます。

このようにして、DGX Sparkは日常の開発環境のAIコプロセッサとなり、プライマリマシンを置き換えるのではなく、拡張します。

NVIDIA DGX Spark での Docker Model Runner の使用開始

DGX Spark への Docker Model Runner のインストールは簡単で、数分で完了します。

1。Docker CE がインストールされていることを確認する

DGX OS には、Docker Engine (CE) がプリインストールされています。持っていることを確認します。

docker version

見つからないか古い場合は、通常の Ubuntu インストール手順に従ってインストールしてください。

2。Docker Model CLI プラグインをインストールする

Model Runner CLI は、Docker の apt リポジトリを介して Debian パッケージとして配布されます。リポジトリが設定されたら(上記のリンク先の手順を参照)、次のコマンドを使用してインストールします。

sudo apt-get update
sudo apt-get apt-get install docker-model-plugin

または、Dockerの便利なインストールスクリプトを使用します。

curl -fsSL https://get.docker.com | sudo bash

インストールされているかどうかは、次の方法で確認できます。

docker model version

3。モデルのプルと実行

プラグインがインストールされたので、 Docker Hub AI カタログからモデルをプルしましょう。たとえば、 Qwen 3 Coder モデルは次のとおりです。

docker model pull ai/qwen3-coder

Model Runner コンテナーは、OpenAI 互換のエンドポイントを次の場所で自動的に公開します。

http://localhost:12434/engines/v1

簡単なテストで公開されていることを確認できます。

# Test via API

curl http://localhost:12434/engines/v1/chat/completions   -H 'Content-Type: application/json'   -d 
'{"model":"ai/qwen3-coder","messages":[{"role":"user","content":"Hello!"}]}'

# Or via CLI
docker model run ai/qwen3-coder

GPU は nvidia-container-runtime を介して Model Runner コンテナに割り当てられ、Model Runner は利用可能な GPU を自動的に利用します。GPU の使用状況を確認するには:

nvidia-smi

4。アーキテクチャの概要

内部で何が起こっているかは次のとおりです。

[ DGX Spark Hardware (GPU + Grace CPU) ]

             │

     (NVIDIA Container Runtime)

             │

     [ Docker Engine (CE) ]

             │

     [ Docker Model Runner Container ]

             │

     OpenAI-compatible API :12434

NVIDIA Container Runtime は、NVIDIA GB10 Grace Blackwell Superchip ドライバーおよび Docker Engine をブリッジするため、コンテナは CUDA に直接アクセスできます。次に、Docker Model Runner は独自のコンテナ内で実行され、モデルのライフサイクルを管理し、標準の OpenAI API エンドポイントを提供します。(Model Runner アーキテクチャの詳細については、このブログを参照してください)。

開発者の観点からは、他のDocker化されたサービスと同様にモデルと対話し、 docker model pull、 list、 inspect、 run はすべて箱から出してすぐに機能します。

日常のワークフローでのローカルモデルの使用

ラップトップまたはデスクトップをプライマリマシンとして使用している場合、DGX Sparkは リモートモデルホストとして機能します。いくつかの SSH トンネルを使用すると、ローカルワークステーションから DGX ダッシュボードを介して Model Runner API にアクセスし、GPU 使用率を監視できます。

1。DMRポートを転送します(モデルアクセス用)

SSH 経由で DGX Spark にアクセスするには、まず SSH サーバーをセットアップします。

日常のワークフローでのローカルモデルの使用
ラップトップまたはデスクトップをプライマリマシンとして使用している場合、DGX Sparkは リモートモデルホストとして機能します。いくつかの SSH トンネルを使用すると、ローカルワークステーションから DGX ダッシュボードを介して Model Runner API にアクセスし、GPU 使用率を監視できます。

sudo apt install openssh-server
sudo systemctl enable --now ssh

次のコマンドを実行して、ローカルマシンからModel Runnerにアクセスします。user を DGX Spark を最初に起動したときに設定したユーザ名に置き換え、dgx-spark.local をローカルネットワーク上の DGX Spark の IP アドレスまたは /etc/hosts で設定したホスト名に置き換えます。

ssh -N -L localhost:12435:localhost:12434 user@dgx-spark.local

これにより、Model Runner API が DGX Spark からローカルマシンに転送されます。
OpenAI 互換の API を期待する IDE、CLI ツール、またはアプリで、次の項目をポイントするだけです。

http://localhost:12435/engines/v1/models

モデル名を設定します(例:ai/qwen3-coder) で、ローカル推論をシームレスに使用する準備が整いました。

2。DGX ダッシュボードポートの転送(モニタリング用)

DGX Spark は、リアルタイムの GPU、メモリ、および熱統計を表示する軽量のブラウザーダッシュボードを公開し、通常は次の場所でローカルに提供されます。

http://localhost:11000

同じ SSH セッションまたは別の SSH セッションを介して転送できます。

ssh -N -L localhost:11000:localhost:11000 user@dgx-spark.local

次に、メインワークステーションのブラウザで http://localhost:11000 を開き、モデルの実行中にDGX Sparkのパフォーマンスを監視します。

この組み合わせにより、DGX Spark は開発環境の GPU を利用したリモート拡張機能のように感じられます。IDE やツールは引き続きラップトップ上に存在しますが、モデルの実行とリソースを大量に消費するワークロードは Spark 上で安全に行われます。

アプリケーションの例: Qwen3-Coder を使用した Opencode の構成

これを具体化しましょう。

オープンソースのターミナルベースの AI コーディングエージェントである OpenCode を使用しているとします。

DGX Spark で Docker Model Runner が実行され、 ai/qwen3-coder プルされ、ポートが転送されたら、以下を追加して OpenCode を構成できます。 ~/.config/opencode/opencode.json

{
  "$schema": "https://opencode.ai/config.json",
  "provider": {
    "dmr": {
      "npm": "@ai-sdk/openai-compatible",
      "name": "Docker Model Runner",
      "options": {
        "baseURL": "http://localhost:12435/engines/v1"   // DMR’s OpenAI-compatible base
      },
      "models": {
        "ai/qwen3-coder": { "name": "Qwen3 Coder" }
      }
    }
  },
  "model": "ai/qwen3-coder"
}

次に、opencodeを実行し、/modelsコマンドでQwen3 Coderを選択します。

それです！完了とチャット要求は、DGX Spark 上の Docker Model Runner を介してルーティングされるため、Qwen3-Coder がエージェント開発エクスペリエンスをローカルで強化するようになりました。

http://localhost:11000 (DGX ダッシュボード) を開いて、コーディング中に GPU 使用率をリアルタイムで監視することで、モデルが実行されていることを確認できます。
この設定により、次のことができます。

DGX Spark GPUを活用しながら、ノートパソコンを軽量に保ちます
DMRによるカスタムモデルまたは微調整モデルの実験
プライバシーとコスト管理のために、ローカル環境内に完全に留まります

概要

NVIDIA DGX Spark で Docker Model Runner を実行すると、強力なローカルハードウェアを日常の Docker ワークフローのシームレスな拡張に非常に簡単に変えることができます。

1 つのプラグインをインストールし、使い慣れた Docker コマンド (docker model pull、docker model run) を使用します。
NVIDIA のコンテナランタイムを通じて完全な GPU アクセラレーションが得られます。
モデル API と監視ダッシュボードの両方をメインワークステーションに転送して、開発と可視性を簡単に行うことができます。

この設定により、開発者の生産性とAIインフラストラクチャの間のギャップが埋められ、Dockerが提供する信頼性とシンプルさを備えたローカル実行の速度、プライバシー、柔軟性が得られます。

ローカルモデルのワークロードが増加し続ける中、DGX Spark + Docker Model Runnerの組み合わせは、データセンターやクラウドへの依存を必要とせずに、本格的なAIコンピューティングをデスクに導入するための実用的で開発者に優しい方法です。

もっと詳しく知る:

DGX Spark の発売の公式発表を NVIDIA ニュースルームで読む
Docker Model Runner の一般提供に関するお知らせを確認する
Model Runner GitHub リポジトリにアクセスしてください。Docker Model Runner はオープンソースであり、コミュニティからのコラボレーションと貢献を歓迎します。スターを付けて、フォークし、貢献します。

新しい NVIDIA DGX Spark 上の Docker Model Runner: AI をローカルで開発するための新しいパラダイム

NVIDIA DGX Spark とは

ローカル AI モデルを実行する理由と、Docker Model Runner と NVIDIA DGX Spark でそれを簡単にする方法

NVIDIA DGX Spark の開梱

NVIDIA DGX Spark での Docker Model Runner の使用開始

1。Docker CE がインストールされていることを確認する

2。Docker Model CLI プラグインをインストールする

3。モデルのプルと実行

4。アーキテクチャの概要

日常のワークフローでのローカルモデルの使用

1。DMRポートを転送します(モデルアクセス用)

2。DGX ダッシュボードポートの転送(モニタリング用)

アプリケーションの例: Qwen3-Coder を使用した Opencode の構成

概要

関連記事

Docker を使用した動的 MCP: エージェントの世界をハードコーディングするのをやめる

Docker + E2B: 信頼できる AI の未来の構築

100%の透明性と5つの柱

SwampUPベルリン2025におけるガバナンスの重要性の高まり

Docker Hardened Imagesが 24 時間で脆弱性を修正する方法

宣伝を超えて:開発者としての生産性を実際に向上させるためにAIを使う方法

製品

特徴

開発者

料金プラン

会社

言語

新しい NVIDIA DGX Spark 上の Docker Model Runner: AI をローカルで開発するための新しいパラダイム

NVIDIA DGX Spark とは

ローカル AI モデルを実行する理由と、Docker Model Runner と NVIDIA DGX Spark でそれを簡単にする方法

NVIDIA DGX Spark の開梱

NVIDIA DGX Spark での Docker Model Runner の使用開始

1。Docker CE がインストールされていることを確認する

2。Docker Model CLI プラグインをインストールする

3。モデルのプルと実行

4。アーキテクチャの概要

日常のワークフローでのローカル モデルの使用

1。DMRポートを転送します(モデルアクセス用)

2。DGX ダッシュボード ポートの転送(モニタリング用)

アプリケーションの例: Qwen3-Coder を使用した Opencode の構成

概要

関連記事

Docker を使用した動的 MCP: エージェントの世界をハードコーディングするのをやめる

Docker + E2B: 信頼できる AI の未来の構築

100%の透明性と5つの柱

SwampUPベルリン2025におけるガバナンスの重要性の高まり

Docker Hardened Imagesが 24 時間で脆弱性を修正する方法

宣伝を超えて:開発者としての生産性を実際に向上させるためにAIを使う方法

日常のワークフローでのローカルモデルの使用

2。DGX ダッシュボードポートの転送(モニタリング用)