AmazonのTrainium3、AI開発コストを半減へ

AWSが独自AIチップで巻き返しを図る
Trainium3の技術的な進化
1. PyTorchサポートで移行の壁を下げる
OpenAI、Appleも採用を決定
Amazon Bedrockでの実用例
フリーランスへの影響
まとめ

AWSが独自AIチップで巻き返しを図る

AmazonのCEO、Andy Jassyは2025年12月の時点で、Trainiumがすでに数十億ドル規模のビジネスに成長していると公言しました。現在までに140万枚のTrainiumチップが展開されており、AI業界での存在感を急速に高めています。

背景には、NvidiaのGPU不足があります。多くのAI企業がNvidiaのチップを求めているものの、バックログで入手困難な状況が続いています。AWSはこの隙を突き、独自チップで代替手段を提供する戦略を取っています。実際、AnthropicのClaudeは100万枚以上のTrainium2チップ上で稼働しており、2025年後半には世界最大規模のAIコンピュートクラスターの一つ「Project Rainier」が50万枚のチップで稼働を開始しました。

Trainium3の技術的な進化

今回公開されたTrainium3は、前世代から大きく進化しています。最も注目すべきは、3ナノメートルの最先端プロセスをTSMCで製造している点です。従来世代はMarvellが製造していましたが、より高度な技術が必要となったため、TSMCに切り替えたとのことです。

新型のNeuronスイッチとの組み合わせにより、全Trainium3チップがメッシュ構成で相互通信できるようになりました。エンジニアリングディレクターのMark Carrollは「これが私たちに巨大なものを与えてくれます」と述べ、遅延が大幅に低減されたことを強調しています。この改善により、Trainium3は「電力あたりの価格」であらゆる記録を更新しているとのことです。

もう一つの大きな変化は、液体冷却方式の採用です。従来世代は空冷でしたが、Trainium3は閉鎖型の液体冷却システムを採用し、液体を再利用することで環境負荷を低減しています。データセンター全体の電力効率にも貢献する設計です。

PyTorchサポートで移行の壁を下げる

AI開発者にとって重要なのは、PyTorchのサポートです。Nvidia向けに書かれたアプリケーションをTrainiumで動作させるには、通常は再アーキテクチャが必要ですが、AWSは「基本的に1行の変更とリコンパイル」で移行できると主張しています。Hugging Faceでホストされているオープンソースモデルも対応しており、既存のコードベースからの移行コストを最小限に抑えられる可能性があります。

ラボディレクターのKristopher Kingは「できるだけ早く実際に動作することを証明することが非常に重要です。これまでのところ、私たちは本当にうまくやっています」と自信を示しました。

OpenAI、Appleも採用を決定

AWSは2026年初頭、OpenAIへの500億ドル投資の一環として、2ギガワットのTrainiumコンピューティング容量を供給することに合意しました。さらに、OpenAIの新AIエージェントビルダー「Frontier」の独占プロバイダーになる予定です。ただし、この排他性についてはMicrosoftが異議を唱えている可能性も報道されています。

Appleも2024年、AIディレクターが公開の場でAWSのチップを絶賛しました。低電力ARMベースのサーバーCPU「Graviton」、推論専用チップ「Inferentia」に加え、当時新しかったTrainiumにも言及しています。

Amazon Bedrockでの実用例

Trainium2は現在、Amazon Bedrock上での推論トラフィックの大半を処理しています。Bedrockは、AWSのマネージドAIサービスで、企業がカスタムAIアプリケーションを構築するためのプラットフォームです。Kingは「お客様のベースは、私たちが供給できる速さと同じくらい急速に拡大しています。いつかBedrockはEC2と同じくらい大きくなる可能性があります」と述べ、AWSの巨大なコンピュートクラウドサービスに匹敵する規模になる可能性を示唆しました。

実際の開発現場では、モデルのトレーニングと推論の両方でTrainiumが使われています。従来はトレーニング専用と考えられていましたが、推論でも十分な性能を発揮することが実証されたため、用途が広がっています。

フリーランスへの影響

フリーランスのAI開発者やエンジニアにとって、このニュースは運用コストに直結します。AWSによれば、Trn3 UltraServersは同等性能の従来型クラウドサーバー比で最大50%低コストで稼働可能です。大規模なモデルをトレーニングする場合、この差は数千ドル、場合によっては数万ドルの節約につながります。

特に、Amazon Bedrockでクライアント向けのAIアプリを構築している方は、推論コストの削減効果を実感できるでしょう。チャットボットや画像認識アプリなど、推論処理が頻繁に発生するアプリケーションでは、月額コストが目に見えて下がる可能性があります。

ただし、すでにNvidiaのGPU環境で構築済みのプロジェクトがある場合、移行には一定の手間がかかります。「1行の変更とリコンパイル」というのはAWSの主張であり、実際にはライブラリの互換性確認やパフォーマンステストが必要になるでしょう。新規プロジェクトであれば、最初からTrainiumを選択肢に入れる価値は十分にあります。

まとめ

Trainium3は、AI開発のコスト構造を変える可能性を秘めています。すでにAWS環境でAI開発を行っている方、特にBedrockを使っている方は、コスト削減のメリットを享受できるでしょう。新規プロジェクトであれば、Trainiumを第一選択肢として検討する価値があります。一方、既存のNvidia環境から移行する場合は、移行コストとランニングコストの削減効果を比較してから判断するのが賢明です。

参考: TechCrunch – An exclusive tour of Amazon’s Trainium lab