2025年11月23日に GMKtec EVO-X2 の64GB/1TB版を22万793円で購入しました。
スペックから期待できること
メモリ速度はdGPUのVRAMと比較すると遅いですが、通常のDDR5 Dual Channelのメインメモリと比較すると3倍程度の速度が期待できそうに見えます。大容量メモリをUMAアーキテクチャでGPUから利用でき、(128GBモデルでは)一般向けのdGPUと比べてかなり大きなAIデータモデルを扱えることが注目されました。
実測してみる
GPU-メモリ間の帯域:read
$ cat vram_read.cfg
## GPU read-only bandwidth
1 40 (G0->G0->N0)
$ /opt/rocm-7.1.0/bin/rocm-bandwidth-test run tb vram_read.cfg 1G
TransferBench v1.64.00
(snip..)
## GPU read-only bandwidth
Test 1:
Executor: GPU 00 | 240.050 GB/s | 4.473 ms | 1073741824 bytes | 240.293 GB/s (sum)
Transfer 00 | 240.293 GB/s | 4.468 ms | 1073741824 bytes | G0 -> G000:040 -> N
Aggregate (CPU) | 229.330 GB/s | 4.682 ms | 1073741824 bytes | Overhead: 0.209 ms
[WARN] GPU 0 requests 40 total CUs however only 20 available. Serialization will occur
GPU-メモリ間の帯域:write
$ cat vram_write.cfg
## GPU write-only bandwidth (memset)
1 40 (N0->G0->G0)
$ /opt/rocm-7.1.0/bin/rocm-bandwidth-test run tb vram_write.cfg 1G
TransferBench v1.64.00
(snip..)
## GPU write-only bandwidth (memset)
Test 1:
Executor: GPU 00 | 223.107 GB/s | 4.813 ms | 1073741824 bytes | 223.324 GB/s (sum)
Transfer 00 | 223.324 GB/s | 4.808 ms | 1073741824 bytes | N -> G000:040 -> G0
Aggregate (CPU) | 209.738 GB/s | 5.119 ms | 1073741824 bytes | Overhead: 0.307 ms
[WARN] GPU 0 requests 40 total CUs however only 20 available. Serialization will occur
CPU-メモリ間の帯域
$ ./stream ------------------------------------------------------------- STREAM version $Revision: 5.10 $ ------------------------------------------------------------- This system uses 8 bytes per array element. ------------------------------------------------------------- Array size = 500000000 (elements), Offset = 0 (elements) Memory per array = 3814.7 MiB (= 3.7 GiB). Total memory required = 11444.1 MiB (= 11.2 GiB). Each kernel will be executed 10 times. The *best* time for each kernel (excluding the first iteration) will be used to compute the reported bandwidth. ------------------------------------------------------------- Number of Threads requested = 32 Number of Threads counted = 32 ------------------------------------------------------------- Your clock granularity/precision appears to be 1 microseconds. Each test below will take on the order of 42283 microseconds. (= 42283 clock ticks) Increase the size of the arrays if this shows that you are not getting at least 20 clock ticks per test. ------------------------------------------------------------- WARNING -- The above is only a rough guideline. For best results, please be sure you know the precision of your system timer. ------------------------------------------------------------- Function Best Rate MB/s Avg time Min time Max time Copy: 147102.1 0.054401 0.054384 0.054457 Scale: 111415.8 0.072173 0.071803 0.072385 Add: 107585.8 0.111592 0.111539 0.111643 Triad: 107448.9 0.111728 0.111681 0.111792 ------------------------------------------------------------- Solution Validates: avg error less than 1.000000e-13 on all three arrays -------------------------------------------------------------
Note: STREAMベンチの数字は、Copy/Scale/Add/Triadのどれもreadとwriteの両方を含みます。その中で最も演算の少ないCopyを今回の指標として使います。
さて、速度を表にまとめるとこうなります。
| 項目 | 帯域 |
|---|---|
| 理論値 (LPDDR5X 8000MHz 8チャネル) | 256 GB/s |
| GPU Read | 240 GB/s |
| GPU Write | 223 GB/s |
| CPU(STREAM Copy) | 147 GB/s |
GPUからメモリへのアクセスは理論値の90%前後で違和感はありませんが、CPUからメモリへのアクセスは理論値の6割程度に留まる結果になりました。
なぜこのような差がでるのでしょうか…?
Infinity Fabric
AMDのCPUやAPUで、パッケージ内部のI/OダイとCPUチップレットを接続する Infinity Fabric について説明します。
- 2009年~、AMDはGlobalFoundriesとの間で困った契約に悩まされていました。GlobalFoundries製造の半導体では性能を出せませんが、GlobalFoundriesを使わないと大損してしまうのです。 https://www.culpium.com/p/amd-split-shackled-chipmaker-for https://www.culpium.com/p/why-amds-spinoff-was-bad-for-its
- 2017年、AMDは性能が要求されないI/OダイだけをGlobalFoundriesに製造させて、性能が必要なCPUチップレットとの間をInfinity Fabricで接続しました。Infinity FabricはAMDにとってGlobalFoundries契約問題を解決する救世主でした、 https://www.amd.com/en/newsroom/press-releases/2018-11-6-amd-takes-high-performance-datacenter-computing-to.html
- 2018年、GlobalFoundriesは7nm開発を断念しました。 https://overclock3d.net/news/audio/globalfoundries-halts-7nm-developments-refocuses-on-high-growth-markets/
- 2019年、AMDとGlobalFoundriesの契約は終わりました。その後I/OダイもTSMCが製造するようになりました。 https://www.techpowerup.com/252013/amd-updates-wafer-supply-agreement-with-globalfoundries-to-free-itself-of-7nm-tax https://meet-global.bnext.com.tw/articles/view/47591
現代の視点では、Infinity Fabricは「少し遅延が目立つが安価なチップレット接続技術」です。 ライバルメーカーはチップレット分割しないモノリシック設計(Apple)だったり、小型シリコンブリッジでチップレット間を高帯域接続(Intel)したり、チップレット間を垂直積層したりしています。どれもInfinity Fabricより遅延が少ないですが、コストは高くなります。 AMDはゲーム機のAPUなどローエンドでも活躍できるコスト効率に優れた技術デッキを選択したのですね。
ボトルネックの正体
Strix Halo でCPUからのメモリreadが遅い理由。想像の域を出ませんが、それは Infinity Fabric のレイテンシの影響でしょう。CPUはInfinity Fabric経由でI/Oダイに接続され、I/Oダイ内部のメモリコントローラがこの処理を行います。Infinity Fabricにはそれなりのレイテンシと帯域上限があるので、メモリアクセス速度を低下させます。 Strix Halo では、高速メモリとの組み合わせによりInfinity Fabricの限界が露呈したのではないでしょうか。
Strix Halo の設計意図
あらためて Strix Halo の内部構造を分析してみます。
I/Oダイに集められたもの
このAPUのI/Oダイ(307mm²)は巨大で、以下の要素が収められています。
I/Oダイ内部の物理的に近い距離に配置することでGPUとNPUと高速メモリのやり取りが遅延せず、ゲーム/AI用途で性能を出しやすい構造となっています。
一方でCPUは8コアのチップレット2つをInfinity FabricでI/Oダイに接続していて、先程説明した通りInfinity Fabricの遅延により高速メモリの性能を活かせていません。それでも既存のゲーミングPCよりは速いのでゲーム/AI用途の妨げにはなりません。
GPUは「主役」、CPUは「補助」。GPUを優先した設計意図は明らかです。高速メモリとInfinity Fabricの組み合わせは限界を露呈したとも言えますが、これはAPUの価格を下げるのに役立っています。合理的な設計ではないでしょうか。
ライバルとの比較
| システム | メモリ帯域 | 価格 |
|---|---|---|
| Mac M4 Max | 400+ GB/s | 50万円~ |
| Mac M4 Pro | 200~230 GB/s | 30万円~ |
| EVO-X2 (Strix Halo) | 147 GB/s | 22万円 |
| Ryzen 9000 (DDR5) | 70~75 GB/s | 25万円~ |
期待よりは半減とはいえ、メモリ速度と価格に注目するとStrix Haloはユニークな立ち位置ですね。
Apple Silicon との比較
Apple Siliconは単一のダイを使うモノリシック設計なので、高速メモリとの組み合わせにおいてより良いパフォーマンスを期待できます。ただしそのモノリシック設計によりダイは大きくなり、半導体製造の歩留まりは悪化して製品価格に影響します。
DDR5 Dual Channel PCとの比較
「普通の自作PC」の構成例。
| パーツ | 価格(日本) |
|---|---|
| Ryzen 9 9950X | 52,000円 |
| DDR5-7200 64GB | 70,000~80,000円 |
| RTX 4070 | 84,000円 |
| マザーボード X870E | 40,000円 |
| SSD 1TB | 15,000円 |
| 電源 750W | 15,000円 |
| ケース | 10,000円 |
| CPUクーラー | 8,000円 |
| 合計 | 約294,000~304,000円 |
「普通の自作PC」は約29~30万円、EVO-X2は22万円です。 デスクトップPCには電源設計や冷却設計や拡張性で利点があるので単純な優劣は比較できませんが、もし用途が合うならEVO-X2はお買い得といえるでしょう。
DDR5 Quad Channel ワークステーションとの比較
Intel Xeon W や AMD Threadripper PRO など、DDR5 Quad Channel を使うワークステーションとメモリ性能と価格だけをざっくり比較してみます。
| 構成 | メモリ速度(理論値) | メモリ速度(実測) | 価格 |
|---|---|---|---|
| EVO-X2 | 256GB/s | 147 GB/s | 22万円 |
| Threadripper PRO 7975WX | 166 GB/s | 約130~140 GB/s | 本体だけで40~60万円+ |
EVO-X2はアーキテクチャ制約によりCPUからのメモリリードが理論値の6割程度となっていますが、それでもワークステーションと同等以上の速度が出ています。
Ubuntu Linuxでの使用感と設定
全く不満なし。 用途に合わせて以下の設定を行っています。
amdgpuとrocm
私の環境では、Ubuntu 24.04.3 LTS Desktop に amdgpu と rocm の 7.1をAMD公式の手順でインストール/動作しています。
zswap
Mac OS にはメモリ自動圧縮機能がありますが、Linuxだと自分で設定する必要があります。 ただし zstd や zpool などのアルゴリズムを選択することで圧縮効率を高くできます。
Transparent Huge Page
Ubuntu 24 では Transparent Huge Page はデフォルトでmadviseになっていますが、このメモリ量と速度ならalwaysにしても体感的に不便を感じることはほぼありません。
snapd の除去
このハードに限った話ではありませんがUbuntuのsnap上で動作するアプリはセキュリティサンドボックスのせいでiBus経由の日本語入力にトラブルを生じることが多いです。Ubuntuインストール直後にsnapを使うアプリはfirefoxがありますが、今回はこれをvivaldiに変えて、残りのsnapパッケージも全部purgeしてsnapdを除去しました。手順の詳細はAIに尋ねてください。
Conclusion
Ryzen AI Max+ 395は128GBモデルが人気ですが、そちらの価格は高騰しています。 一方で64GBモデルは発売当時からほぼ値上がりしておらず、2025年秋冬のPCパーツ高騰を考えると貴重です。
APUの設計には妥協も見られますが、結果としてはワークステーション並にメモリが速いPCを良好なコスパで利用できます。メモリ重視の用途なら同価格帯にはライバルがいません。
ただしいくつか注意点があります。
- ミニPCなので拡張性は高くない。USB4端子を利用することが多いだろう。ただしM.2スロットからPCIeを取り出す事も一応は可能だし、AMD Ryzen AI Max+ 395搭載機種の一部にはPCIeスロットを持つものもある。
- ミニPCなので電力や排熱に関する設計はデスクトップPCと比べて大きく制約される。短時間バースト性能は優秀なのでベンチマーク値は高いが、負荷が長時間続くと半導体の過電流や加熱を防ぐために性能はややスロットリングされる。デスクトップPCの大きなファンと同じ風量をミニ小さなファンで得るにはファンを増やし回転数を上げるしかないが、ファン騒音は回転数の3乗に比例する。つまり静粛性でも不利だ。
- 冷却ファンは1-2年で軸が摩耗/損傷して騒音を出すようになる。ミニPCは交換用ファンの入手難易度が高い。分解してファンの型番と写真を控え、AliExpressなどで探すことになる。
注意点を理解した上で、もし用途が合うなら良い選択と言えるでしょう。