Apple GPUでコンピューティングワークロードを拡張する

WWDC22に戻る

Apple GPUでコンピューティングワークロードを拡張する

コンピューティングワークロードを作成して、Apple GPUで効率的に拡張する方法をご覧ください。作業配分を改善してGPUを飽和させたり、効果的なパイプライン化と同時ディスパッチでGPUタイムラインのギャップを最小化したり、アトミック操作を効果的に使用したりする方法を紹介します。また、XcodeやInstrumentsの最新のカウンタやツールについても解説します。これで、空間および時間のメモリアクセスパターンを最適化することができるようになります。

リソース
- Metal
- - HDビデオ
  - SDビデオ
関連ビデオ

WWDC23
- MetalでGPUレンダリングを最適化
WWDC22
- Metal 3の紹介
Tech Talks
- MacBook ProでのMetal演算
（音楽）
こんにちは私の名前はMarco Giordano GPU Software Engineering teamのメンバーですこのセッションではApple M1 GPUでのスケールの方法についてお話しします複雑な作業負荷に携わっていて Apple Siliconを最大限に使いたいならここに来て正解ですまずスケーリング概念で M1 GPUを使ってのスケーリングについて話しその方法を順番に見ながらスケーリングを最大限に行うためのツールについてお話ししますまずスケーラビリティとその重要性について理解しましょう
Apple M1 GPUはスケーリングと優れた性能を念頭に一からデザインされました 8-core iPadから64-core MacStudioまで Metal3を全面サポートしています
このハイレベルのスケーリングで M1に最適化することはいい出発点になります多くのプロAppはすでに最適化されており素晴らしいスケーリングを達成しています
例えばAffinity Photoと DaVinci Resolveがありますこれらの写真と映像の編集Appは見事なスケーリングを達成していますスケーラビリティを定義し達成方法を見てみましょう GPU workload scalabilityは GPU coreを増やすことで性能を向上できる容量のことですこのグラフはGPU core数の増加による Appの速さを示しています直線的な向上が理想的です
しかしあなたのAppはピークに達してしまい GPU timeline gapsで性能が落ちるかまったくスケールしていないかもしれませんもしくは性能は向上しているもののその向上にはムラがあり GPUが限界に達しているかもしれませんここでは24と32 48と64 coreの間です
あなたのゴールは直線ゴールに近づけることで問題の原因を発見し性能を向上させるツールとテクニックをお見せします
次はGPUスケーリングを最大化する方法についてですどの作業負荷でもまずネックの原因を調べます原因は計算かバンド幅にあるかもしれません最適化する過程で両方の原因の間をバウンスするかもしれません計算が原因ならメモリーにある程度移し計算量を減らす必要があるかもしれませんスケールアップと共にネックが動くかもしれません解決策の一つはMPSやMPSGraphなど Appleフレームワークの使用かもしれませんそれらの基本要素を利用すれば compute kernelが最大限を尽くすはずですしかしすべてをMPSに置き換えられませんですので作業負荷を理解することが大切です
まずGPU gapsを最小化する３つの方法のお話しをします作業負荷分配の向上GPU timeline gapsの削除及びAtomics operationですそしてgridとlayoutの影響を調べ Blender Cyclesで具体的な例を見て GPU limitersをどう最適化するかについてお話ししますまずGPU gapsの最小化についてですこれはハードウェアが待機中 GPU timelineにgapsが生じ GPUが最大限に活用されていないのが原因です
では作業負荷の分配で向上できるか見てみましょう
小さい作業負荷は通常GPU全体を使わず kernel synchronizationが使われるため適切なスケーリングを妨げているかもしれません作業負荷がハードウェアにどう分配されるか理解することが重要です作業負荷はthreadgroupsの 3D gridとして送られます ThreadgroupsはGPU coresに均等に分配されサイズに限りはあるものの速くローカルな threadgroup memoryにアクセスします threadgroupはwavesやwarpsとして知られる SIMD-groupsに分類されます Thread Execution Widthを調べると SIMD-widthがわかります Apple GPUはすべて32です
Threadgroupには最大1024 threadsあり threadgroup memoryを32KBまでシェアできます
すべてのGPU coresにおいて十分な作業があるべきです
これはgridへの配布例です ThreadgroupsがGPU Clustersに配布され GPU coresに分配されます
threadgroupsが少ないとマシン全体に作業が分配されませんこうやって直します
まずいくつのthreadsがあるか計算しマシン全体を供給するか見てみます比較的複雑なkernelsの場合 1Kから2Kのthreadsが妥当な量だとされていますですのでGPU core１つあたり 1K〜2Kを目安にしますここから十分分配される作業があるか計算しますこの表はSOCsを満たすことができる最低限のthreads数を示しています
また必要以上に大きい threadgroupサイズを避けることです threadgroupsを小さくすればより均等に分配されます大きいthreadgroupsは均等な配分を妨げ GPU coresのバランスに影響します
作業負荷にあう最小限のSIMD widthの倍数を使用するべきです小さいthreadgroupsを使用することで GPUは作業負荷をバランスできます
XcodeかInstruments GPU Toolsで常にkernel runtime performanceを確認してください
このGPU captureの例ではkernelが計算中です使用量は意外にもかなり低めです compiler statisticsがXcode 14に新登場の max theoretical occupancy が100%を示していますつまり十分なthreadsがないことを意味しアルゴリズムでthreadsが徐々に減少しておりマシンを満たしていません
原因は他にもあるかもしれません詳細は以下のビデオをご覧くださいさて作業負荷が正しく配分され GPUが常に稼働するようにせねばなりません
GPUを活用しないと理想のスケーリングはできず最悪の場合待機状態にしてしまいますそれはGPU timeline gapsがあるからです
この例を見てください CPUとGPUのシリアライズにより作業負荷はGPUを50％しか使用していませんこの場合全行程の時間は CPUとGPUの作業の合計で重複はありません
GPU coresを倍にすると GPU trackが速くなりますが CPU track は影響しません全体性能は33％速いもののまだ理想ではありません
再びGPU coresが倍になると GPUの作業が速くなるものの全体的レイテンシは60％しか減少しませんつまり結果が少なくなるということです理想ではないので正しましょう
このM1 proのInstrument traceには大きなgapsがあり理想のスケーリングを妨げます
M1 Ultraでは少し速いものの GPU idle timeが大きくなり作業負荷はスケーリングできていません command bufferでwaitUntilCompletedにより CPU synchronizationでgapsが生じています waiting logicを変更しserializationを除くと GPUがフルに利用されます
スケーリングを前後で比べると理想のスケーリングに近づいたと言えます
先ほどの例ではCPU/GPU synchronizationを同時に除くことができましたしかしApp次第でいつもそうだとは限りません待機時間を減少する方法は他にもあります MTLSharedEventsでCPUに合図してさらに作業を取り込みGPU-driven encodingで concurrent dispatchesを使用できますどうすればGPU timeline gapsを減らせるでしょうか作業負荷にあうものもあります
GPUのcompletionを待つのは理想的ではありません WaitUntilCompletedを使っているなら MTLSharedEventsを使ってみるべきです
MTLSharedEventsはオーバーヘッドが少なく timeline gapsを減少できますもう一つはパイプライン方式です
次の仕事に必要なデータがアルゴリズムにあれば MTLSharedEventを待つ前にいくらかエンコードすることが可能ですこれでGPUを使い果たすのを避け常に処理する仕事があります
もし同じキューで予めエンコードできないなら２つ目のキューで重複させてみてくださいいくつかのキューを使うと仕事は独立しており eventを待つ間他のthreadを立ち往生させませんこうすればGPUは常に仕事を受け入れ処理できます
GPUから直接処理できるアリゴリズムもあります
間接的なcommand bufferで次のバッチの処理をGPUで直接動かせ synchronizationを避けられますこれらについての詳細はこちらをご覧ください「Metalによる最新のレンダリング」これで作業負荷はCPUと GPU間のsynchronizationsを省くか最小化できますしかしまだ問題があるかもしれません調べてみましょうこのグラフは画像処理の作業負荷で画像が１フレームずつ処理されていますこうした連続的処理作業もスケーリングに影響します GPUは稼働中ですが kernel synchronizationで負荷がありthreadgroupsにムラがあるため coresが満たされていませんまたthreadgroupsが終了すると coresを満たすのに十分な作業がないかもしれませんこの場合できる限り作業を重複させることです図で見てみましょうここでは２つの画像を続けて処理しています通常kernelsはシンクロナイズする必要がありますしかしこれ以外にも方法があります concurrent dispatchesで処理を挟み込むです concurrent dispatchesで別の作業を挟み込むことができます連続的だった２つのkernelsが独立作業で分割されましたしかしMTLDispatchType Concurrentでバリアが手動で入れられねばなりません Concurrent dispatchesは作業を詰め込むことができ kernels間のsynchronizationを控え様々なkernelsの穴埋めをすることができますこの最適化で作業負荷能力が向上し M1 MaxからM1 Ultraへのスケーリングも向上します２つの画像を挟み込んだ場合作業負荷が30％速くなり３つの画像が並行すると以前より70％速くなります
Atomic operationsを考慮するのも重要です最も効率的であることを確かめましょう Atomic operationは幾つものthreadsから安全な方法でデータの読み書きを可能にします Global atomicsはGPU全体で一貫していますいくつものthreadsが同じ大域的値を読み書きすると競合につながります GPUの数を増やしてもさらに競合が増すだけですではAtomics behaviorをどう向上できるかアルゴリズムで見てみましょう
ここにバッファーにあるすべての値が合計される還元アルゴリズムがあります単純なアプローチは主要メモリーでthreadごとに Atomic add operationを行うことですしかしこれは一つの値に圧力をかけメモリーの書込をシリアライズしてしまうので理想的ではありません
Atomicメモリー競合に対し２つの対策があります SIMD-group instructionと threadgroup atomicsです
prefix_exlusive_sumなどの SIMD instructionsはメモリーを介さずSIMD-group内でレジスター間の処理とメモリー交換を行います Threadgroup atomicsは threadgroupメモリで履行各GPU coreにthreadgroupメモリがありいくつものGPU coresでスケールできますではこれらでどう作業負荷が向上できるか見てみましょう
ここに同じ縮小問題がありますが今度はSIMD-group instructionである inclusive memory sumを使いますこのオペレーションは SIMD groupの全数値の合計を最後のthreadにまとめます各SIMD groupの最後の threadがAtomic addを行い全SIMDi groupsをThreadgroup memoryで一つの値に縮小します SIMD group instructionと threadgroup memoryを使いメインメモリに触れずに threadgroupを縮小しました各groupが同時にそれぞれ縮小できたのです
単一値に縮小できたので１threadgroupにつき１threadでメインメモリで１つのAtomicができます各threadgroupで Atomicが一つになるだけでなく threadgroupsは別々の時間に終了するため atomicsを時間的に広げることでメモリーの競合をさらに防げますまとめると Atomicsを最大限に使うためメモリの局所性を利用して SIMD group operationや threadgroup memory atomicsを使用しますこれらで作業負荷を減らしスケーリングを妨げられます
GPU gapsが直りスケーリングが理想に近づいたか調べます XcodeのGPU LimitersとMetal System Traceが GPU cores execution pipelineの問題を改善します例えば非能率なmemory access patternsは常に高いLast Level Cacheや Memory Management Unit MMU limitersを引き起こし利用度も低くなりますまずthreadgroupsとmemory layoutの調整です memory spanと分散を減らす鍵は空間的および時間的にmemory access patternを理解することですそれを理解すれば２つの調整方法があります局所性を改善するため data layoutを整理し直すか access patternを調整してdata layoutにあわせ memoryとcacheの局地所性を改善するかです例を見てみましょう
これはデータが横に並んだmemory bufferです行ごとに並んでいますしかしcompute kernelが配布されると四角のthreadgroupsが分配され 2Dパターンのようになり空間的に局所化されることがありますこれはデータの局所性によくありません
例えば最初のSIMD groupがデータにアクセスする時リクエストはcache linesに詰み込まれますそのほとんどは使われませんが cache内で場所をとってしまいます access patternに合わせるため整理し直せばデータが一列に広がる代わりに縞状に局所化されます
これによりthreadgroupは cache lineのデータをほとんど利用することができ発散を避けchacheの能率を向上します
もう一つは現在のdata layoutにあわせて 3D gridの配布方法を変更することです threadgroup sizeを調整しmemory layoutにあうグループを作りますこの例で言うと長方形型です access patternがmemory layoutと一致し chacheの能率が高くなります作業負荷にあわせて最適なものを探してください時として何かと引き換えにせねばなりませんメモリ局所性のために threadの分散を犠牲にしたり data layoutやgrid dispatchの変更などですその作業負荷もaccess patternも違います
メモリ局所性の向上方法がわかり Blender Cyclesで別の例を見てみましょう
CyclesはBlenderの物理ベースpath tracerです物理学ベースの結果を提供できるデザインで artistic controlとflexible shading nodesが特徴です
低いread bandwidth高いTop GPU Limiter 高いcache limiterと低いcache utilizationです
bandwidthとMMU limitersはスケーリングに需要です TOP limiterがlast level cacheかMMUなら memory spanを減らし局所性の最大化が必要です例を見てみましょう
Cyclesは分散の減少にデータのソートを使用します ray hitsをmaterial typeでソートすることで実行します thread分散の減少に最適ですが spatial memoryの分散が増加してしまい MMU limiterが高くなってしまいますこれに対応するためデータの局所性を増やすためソート前にmemory rangeの分割化を試みました見てみましょう光線をシミュレートするため raysをシーンに放つと物に当たりそのデータが buffersに集めらせます交差地点でいろんなことがわかりますガラスや金属など光が当たった物のタイプや当たった場所などの情報ですここでは物のタイプだけに焦点を当てましょう bufferにある物のタイプです
光線ごとにデータが集められるため memory bufferは非常に大きくなります大量のメモリの移動を避けるためインデックスリストを作りそれをソートしますソート後同じタイプの物のインデックスが集められました SIMD-groupsがそれらをロードし物質を処理します SIMD-groupはインデックスでoriginal bufferにデータを取り込みます
しかしSIMD-groupはメモリ全体を読むため MMUに圧力がかかります新しい方法を調べてみましょう memory rangeは理想的に分割され他のパーティションからのインデックスが混ざりませんソートするとデータアクセスがパーティション内のみであるのがわかりますこれはthreadとmemoryの分散間におけるバランスですパーティションの数とサイズは作業負荷次第ですどちらが最適化は試してみねばなりません別のmetal system traceで例を見てみましょうこれは最適化された limitersとutilizationsです TOP performanceもlast level cacheも下がりましたその結果bandwidthとshader runtimeが向上しましたどのくらいでしょう？ Top limiterとLLC limiterは20%削減しましたデータフローの効率が上がったのです GPU Read bandwidthもかなり向上し GPU coresにさらにデータを送れます
全体的にこの実験でメモリ局所性を増加し性能を10〜30％向上させることができましたこれは性能を向上させる方法のごく一つですいろいろ試し最適化を試みてください GPU toolsには便利なcountersがあります
Xcodeには新しいtheoretical occupancyがあります XcodeとInstrumentsのMMU関連のものには MMU LimiterやMMU Utilization Counter MMU TLB Miss Rate Counterがあります
今日はたくさんカバーしました GPUスケーラビリティとネックについてとそれらの問題を解決するツールについて話しましたまたいろいろ試して最高の結果を得るためには何かを引き換えにする必要があることも話しました Apple Siliconでみなさんの Appがスケールすることを楽しみにしていますありがとうございました

リソース

関連ビデオ

WWDC23

WWDC22

Tech Talks