AMD Instinct MI350P PCIe GPU でオンプレミスAIが加速——既存サーバーへの”差し込むだけ”革命を徹底解剖
正直、最初にスペックシートを見たとき、目を疑った。
「これ、本当にPCIeスロットに刺さるだけで動くのか?」——そう思ったのは、筆者だけではないはずだ。エンタープライズAIの文脈でここまで「導入障壁の低さ」と「演算性能の高さ」を同時に実現してきた製品は、ここ数年で見てもかなりレアケースだ。今回は AMD Instinct MI350P を中心に、同カテゴリの競合製品・前世代との比較を交えながら、なぜこのカードがオンプレミスAIの”現場感”を変えうるのかを、ガジェットマニア目線で徹底的に掘り下げる。
▶ AmazonでAMD製品の最新ラインナップを今すぐ確認する→
① そもそも「PCIe GPU」とは何が違うのか——OAMフォームファクタとの根本的な差異

AMD Instinctシリーズには大きく分けて2つの形態が存在する。
- OAM(Open Accelerator Module):HPCクラスタやAIスーパーコンピュータ向けの高密度実装フォーム
- PCIe形態:標準的なPCIe x16スロットに挿入可能な、いわゆる「グラフィックスカード型」
MI350PはこのPCIe形態。これが何を意味するかというと、既存のx86サーバー資産をそのまま流用できるということだ。カスタムマザーボードも、専用ラックも、特殊な電源系も不要。Dell PowerEdgeでもHPE ProLiantでも、PCIe x16スロットがあれば原則として対応可能。インフラ担当者が「また新しいシステムを一から組むのか」という悪夢を見なくて済む。
これはCTO・ITアーキテクト視点ではCAPEX削減に直結するファクトだ。OAMベースのシステム一式を新規構築する場合と比較すると、導入コストは概算で40〜60%の差が生まれることも珍しくない(ラックシステム・冷却設備・専用HBA等を含む総コスト比較)。
② アーキテクチャ深掘り——CDNAとHBM3eが生む「密度の暴力」

CDNA アーキテクチャの進化系が搭載される意味
MI350Pが採用するのはAMDのCDNA 4アーキテクチャ(次世代CDNA系)ベースのダイ。前世代のMI300シリーズ(CDNA 3)と比較して、以下の改善が報告されている:
- FP16演算性能:前世代MI300X比で最大1.4倍以上のスループット向上
- FP8精度での推論:LLM推論タスクでの実効スループットが大幅改善
- メモリ帯域幅:HBM3eの採用により5.3TB/s超のバンド幅を実現(MI300X: 5.3TB/s クラスを維持しつつPCIe形態に最適化)
HBM3eという選択の正しさ
LLMのボトルネックがメモリ帯域幅にあることは、ガジェットマニアなら改めて説明不要だろう。Transformerアーキテクチャの自己注意機構はメモリアクセスがネックになりやすく、演算コアがどれだけ高速でもメモリI/Oが追いつかなければ意味がない。HBM3eはGDDR6比で帯域幅が約4倍以上であり、この点においてPCIe形態のMI350PはGDDR6ベースの競合品と根本的に異なる土俵に立っている。
③ 競合比較——NVIDIA L40S / H100 PCIe との正面対決

ここが本記事の核心だ。PCIe形態のAI特化GPUという土俵で、現実的な競合は以下の2製品に絞られる。
【比較表】MI350P vs NVIDIA L40S vs NVIDIA H100 PCIe
| 項目 | AMD MI350P (PCIe) | NVIDIA L40S | NVIDIA H100 PCIe |
|---|---|---|---|
| メモリ種別 | HBM3e | GDDR6 | HBM2e |
| メモリ容量 | 192GB(推定) | 48GB | 80GB |
| メモリ帯域幅 | 5TB/s超クラス | 864GB/s | 2TB/s |
| FP8推論対応 | ✅ ネイティブ対応 | ✅(FP8) | ✅(FP8) |
| フォームファクタ | PCIe(HHHL/FHFL) | PCIe(FHFL) | PCIe(FHFL) |
| TDP | ~300W(PCIe帯域内) | 350W | 350W |
| ROCm対応 | ✅ ネイティブ | ❌(CUDA専用) | ❌(CUDA専用) |
| 概算市場価格帯 | 参考価格調査中 | 約130万〜180万円 | 約350万〜450万円 |
※スペックは公開情報および業界情報をもとにした推定値を含む。最終スペックはAMD公式を参照のこと。
L40S との差が如実に出る「大規模LLM推論」シナリオ
NVIDIA L40Sは確かに「PCIe形態のAIカード」として優秀だが、メモリが48GB GDDR6という制約が厳しい。例えばLlama 3 70Bをfloat16でサービングしようとした場合、モデルウェイトだけで約140GBのVRAMが必要になる。L40Sでは単体で動かすことすら不可能で、NVLinkによるマルチGPU構成が前提になってくる。
一方、MI350Pが搭載するHBM3e 192GB(推定)であれば、単体でLlama 3 70Bどころか、複数の大規模モデルを同時にサービングできる計算になる。これは「PCIe 1枚でどこまでできるか」という命題への、現時点で最も強力な回答だ。
H100 PCIe との比較——「価格帯の常識」が壊れる
H100 PCIeは紛れもなく最高峰だが、その価格は350万〜450万円超が現実的なラインだ(2024年時点の国内流通価格)。MI350Pがこのレンジを大幅に下回る価格で競合してくるなら、「H100でなければできないこと」がどれだけあるかを真剣に問い直す必要が出てくる。ROCmエコシステムの成熟度については後述するが、少なくとも推論ワークロードにおいてはHipify等によるCUDAコード変換も現実的になってきた。
▶ AmazonでAMD Instinctシリーズの関連製品をチェックする→
④ ROCmエコシステム——「CUDAじゃないから使えない」は過去の話になりつつある

AMD GPUの最大のアキレス腱として長らく挙げられてきたのが、ROCm(Radeon Open Compute)エコシステムの成熟度問題だった。しかし2023〜2024年以降、この状況は劇的に変わりつつある。
- PyTorch 2.x:ROCmバックエンドが公式にサポートされ、主要なモデルの学習・推論がほぼノーコード変更で動作
- vLLM:AMD GPU対応が正式サポートに格上げ。LLMサービング基盤として実運用可能
- Triton:OpenAI TritonコンパイラがROCmをサポートし、カーネルレベルの最適化も可能に
- HipBLAS / MIOpen:cuBLAS / cuDNNの機能的同等品として、行列演算・深層学習プリミティブをカバー
正直に言おう。1年前の筆者だったら「推論ならまだしも、学習はCUDAじゃないと厳しい」と言っていた。だが今は違う。特にエンタープライズ推論特化用途であれば、ROCmのデメリットはほぼ許容範囲内に収まっている。
⑤ 実際のオンプレミスAI導入シナリオで検討すべきポイント
シナリオA:既存Dell/HPEサーバーへの後付け増強
これがMI350P PCIeの真骨頂。例えばDell PowerEdge R750xaにはPCIe 4.0 x16スロットが複数あり、MI350Pを追加するだけでサーバーが突然AIサーバーに昇格する。ラックの増設も、専用冷却ユニットの追加も、基本的に不要だ(TDP 300W程度であれば標準的なサーバー冷却で対応可能)。
シナリオB:プライベートLLMサービングの内製化
「ChatGPTのようなものを社内に持ちたいが、データを外に出したくない」——このニーズはここ1〜2年で急激に増加している。MI350P + vLLM + Llama 3系モデルの組み合わせで、社内専用の生成AIサービスを単一ノードで構築可能なシナリオが現実的になる。クラウドLLM APIの月額コストと比較した場合のROIは、ヘビーユースケースほど短期間でブレークイーブンを迎えるはずだ。

