Dockerは、2025年10月20日にAWSの米国東1地域で広範囲に及ぶ停止により、重大な混乱を経験しました。世界中の開発者は日常のワークフローの一部としてDockerに依存しており、これが引き起こした混乱を遺憾に思います。この投稿では、何が起こったのか、何を学んだのか、そして将来に向けてシステムをどのように強化しているのかについて、透明性を提供したいと考えています。
どうされました
10月20日、06:48 UTCに2025、Docker Hub、Hardened Images、Scout、Build Cloud、Automated Builds、Testcontainers Cloudは、AWS最大のリージョンである米国東部1でDynamoDB、EC2、Network Load Balancer、その他のAWSサービスの停止が発生したため、障害率が上昇しました。詳細については、 サービス中断に関する AWS の概要 を参照してください。この故障率の増加により、前述の製品全体で Docker サービスが 2025-10-20 08:01 UTC に完全に停止しました。
2025-10-20 09:40 UTCから、AWSは進行状況と部分的な復元を報告し、その結果、Dockerサービスが部分的に動作に復元されました。Docker サービスの完全な復元は、 2025-10-21 09:42 UTC までに完了しました。完全なタイムラインとユーザーへの影響は、こちらで確認できます。
イベントのタイムラインと影響
- 2025-10-20 06:48 UTC
- AWS DynamoDB と EC2 API に障害が発生し始め、Docker Hub、Build Cloud、Testcontainers Cloud、およびその他の関連サービス全体でパフォーマンスが低下します。
- 2025-10-20 06:51 UTC
- AWS STS は、AWS サービス全体で連鎖的な障害で障害が発生し始める
- Dockerサービスの劣化が進みます。
- ユーザーは、すべての要求で広範囲に及ぶ断続的な障害を経験します
- 2025-10-20 08:01 UTC
- すべてのサービスが利用できません
- 2025-10-20 09:21 UTC
- AWS SQS のリカバリ
- AWS STS のリカバリ
- AWS EC2 まだ失敗しています
- ユーザーは、すべてのDockerサービスで高いエラー率( 90%以上)を引き続き経験しています
- 2025-10-20 09:40 UTC
- AWS DynamoDB の復旧が開始
- Docker Hubの復旧開始 – エラー率が 20%未満
- Docker Hardened Recovery が開始 – エラー率が 20% 未満
- 2025-10-20 12:28 UTC
- AWS EC2 のリカバリは、スロットリングが有効な状態で開始されます
- Docker Scoutの復旧が開始
- Docker オフロードの回復が開始されます
- Docker Build Cloud の復旧が開始されます
- Docker Testcontainers クラウドの復旧が開始
- 自動ビルドは引き続き使用できません
- 2025-10-20 18:52 UTC
- Docker HubとScoutが完全に回復
- Docker Build Cloud と Testcontainers Cloud の改善が見られる – エラー率 ~50%
- 自動ビルドは引き続き使用できません
- 2025-10-20 20:50 UTC
- AWS EC2 が完全に回復
- Docker ビルド クラウド、オフロード、テストコンテナ クラウドを完全に回復
- 自動ビルドは引き続き使用できません
- 2025-10-21 09:42 UTC
- 自動ビルドは完全に回復します
- すべてのサービスが稼働中
継続的な監視
現在、すべてのDockerシステムは稼働しており、インフラストラクチャのステータスを引き続き監視しています。リアルタイムの運用の詳細については、通知を購読できる ステータス ページ にアクセスしてください。
レジリエンスと次のステップ
私たちは Docker Hub の信頼性を真剣に受け止めており、世界中の開発ワークフローにおける Docker Hub の重要な役割を理解しています。Docker のサービスの中で、Hub のレジストリ操作、特にイメージ プルは最も頻繁に使用されており、開発者のワークフローを動かし続けるために最も不可欠です。
私たちの最優先事項は、地域のクラウドに障害が発生した場合でも Docker Hub を引き続き利用できるようにすることです。そのために、当面の重点分野は次のとおりです。
- キャッシュ戦略: キャッシュ層を拡張および最適化して、アップストリーム障害の影響範囲を縮小し、部分的な停止時でも頻繁に使用するイメージに顧客が引き続きアクセスできるようにします。
- マルチリージョンの回復性: イメージのプルから始まる、Docker Hub の読み取り操作のリージョン冗長性を有効にします。これにより、1 つのクラウドリージョンで中断が発生した場合でも、プルをシームレスに継続できます。また、これらの機能を拡張して、リージョン間で大幅に複雑になるイメージプッシュなどの書き込み操作に拡張するアプローチも模索しています。
Docker コミュニティは Hub の信頼性に依存しており、私たちはその信頼を真剣に受け止めています。私たちは、Docker Hubが世界中の開発者にとって信頼できる基盤であり続けるために、このイベントから学ぶことに尽力しています。