クラウドサービス
2026年04月23日

Google、第8世代TPU「8t」「8i」を発表――トレーニングと推論を分離する設計思想が示すもの

Google、第8世代TPU「8t」「8i」を発表――トレーニングと推論を分離する設計思想が示すもの

Google、第8世代TPU「8t」「8i」を発表――トレーニングと推論を分離する設計思想が示すもの(写真はイメージ)

Googleは2026年4月22日、Google Cloud Next '26において、第8世代のカスタムTensor Processor Unit(TPU)となる「TPU 8t」と「TPU 8i」を発表しました。今回の発表で注目すべきは、トレーニング用と推論用で異なる2つのアーキテクチャを用意した点です。これまでの世代では単一のチップで両方の役割を担っていましたが、AIエージェントの台頭を見据え、それぞれのワークロードに特化した設計へと舵を切った形となります。

TPU 8tは、モデルトレーニングに最適化されたチップです。単一のスーパーポッドで最大9,600個のチップと2ペタバイトの共有高帯域メモリまで拡張でき、前世代と比較してポッドあたり約3倍の演算パフォーマンスを実現しています。チップ間帯域幅も2倍に向上し、121 ExaFlopsの演算能力を提供します。Google独自のVirgoネットワークとJAX、Pathwaysソフトウェアを組み合わせることで、単一の論理クラスター内で最大100万個のチップに対してほぼリニアなスケーリングが可能とされています。

一方のTPU 8iは、推論ワークロードに特化した設計です。288GBの高帯域メモリと384MBのオンチップSRAM(前世代の3倍)を搭載し、モデルのアクティブなワーキングセットを完全にオンチップに保持できるようにしました。インターコネクト帯域幅を19.2Tb/sに倍増させ、新しいBoardflyアーキテクチャによって最大ネットワーク直径を50%以上短縮しています。この結果、前世代と比較してコストパフォーマンスが80%向上し、同じコストで約2倍の顧客リクエストに対応できるとしています。

ワークロード特化型への転換が意味すること

今回の発表で興味深いのは、Googleがトレーニングと推論を明確に分離し、それぞれに最適化されたハードウェアを用意した点です。これは単なる技術的な選択肢の拡大ではなく、AIインフラストラクチャに求められる要件が根本的に変化していることを示唆しています。

従来、AIアクセラレータは「汎用性」が重視されてきました。1つのチップで開発から本番運用まで対応できることが、導入の簡便さや運用の柔軟性につながると考えられていたためです。しかし、大規模言語モデルやAIエージェントが実用段階に入り、本番環境での推論需要が急速に拡大する中で、トレーニングと推論では最適化すべきポイントが大きく異なることが明確になってきました。

トレーニングでは計算スループットとチップ間通信の効率が重視されます。一方、推論ではメモリ帯域幅とレイテンシが重要です。特にAIエージェントのように、複数のモデルが連携して反復的に処理を行う場合、わずかなレイテンシの積み重ねが全体のパフォーマンスに大きく影響します。Googleは数年前の時点でこの変化を予測し、第8世代TPUの開発段階から専用設計へと方針を転換していたことになります。

この設計思想の転換は、クラウドインフラ市場全体にも影響を与える可能性があります。これまで「AIワークロード」としてひとくくりにされていた需要が、実際にはトレーニングと推論で大きく異なる特性を持つことが、ハードウェアレベルで明確に示されたためです。今後、他のクラウドプロバイダーやチップメーカーも、同様の方向性を検討する可能性が考えられます。

電力効率とシステム全体最適化への注目

今回の発表では、電力効率に関する言及も目立ちました。TPU 8tおよびTPU 8iは、前世代のIronwoodと比較して最大2倍の電力効率(ワットあたりのパフォーマンス)を実現しているとのことです。

データセンターにおいて、電力確保がチップ供給と並ぶ大きな制約となっている現状を踏まえると、この改善は単なる環境配慮以上の意味を持ちます。同じ電力量でより多くの計算を実行できることは、事業者にとってキャパシティの実質的な拡大を意味するためです。

注目すべきは、Googleが効率化をチップ単体ではなく、システム全体で追求している点です。ネットワーク接続と計算機能を同一チップに統合し、データ移動時の電力コストを削減する設計や、第4世代の液冷テクノロジーの採用、さらには独自のArmベースCPU「Axion」をホストとして採用することで、チップ単体では到達できないレベルのエネルギー効率を実現しているとしています。

この「システム全体最適化」のアプローチは、クラウドネイティブなAIインフラを構築する上での一つの方向性を示しています。個別のコンポーネントを最適化するだけでなく、ハードウェア、ネットワーク、ソフトウェアを一体として設計することで、より大きな効率改善が得られる可能性があります。

生成AIやAIエージェントの活用を検討する企業にとって、こうしたインフラレベルでの設計思想の変化は、間接的ではありますが意識しておく価値があります。特に大規模な推論ワークロードを想定する場合、推論専用に最適化されたインフラを選択することで、コストやレスポンス性能に大きな差が生まれる可能性があるためです。

まとめ

Googleの第8世代TPU発表は、AIインフラストラクチャが「汎用」から「特化」へと進化しつつあることを示す一例と捉えられます。トレーニングと推論を分離し、それぞれに最適化された専用アーキテクチャを用意するという選択は、AIワークロードの成熟と多様化を反映したものと言えそうです。

TPU 8tとTPU 8iは2026年後半に一般提供が開始される予定で、Google AI Hypercomputerの一部として利用可能になります。今後、他のクラウドプロバイダーやチップメーカーが同様の方向性を打ち出すかどうかも注目されます。AIインフラの選択肢が増えることは、利用者にとっては比較検討の軸が複雑化することを意味しますが、同時にワークロードの特性に応じた最適な選択が可能になることでもあります。

AIエージェントや大規模言語モデルの活用が広がる中で、インフラレベルでどのような設計思想が採用されているかを理解しておくことは、今後のIT投資判断においても一つの視点となるかもしれません。

top遷移画像

Copyright (C) 2026 IT Trend All Rights Reserved.