Apple GPUでの機械学習モデルとAIモデルのトレーニング

WWDC24に戻る

Apple GPUでの機械学習モデルとAIモデルのトレーニング

PyTorch、JAX、TensorFlow向けのMetalを使用し、Appleシリコンでモデルをトレーニングする方法を解説します。新しいアテンション操作と量子化のサポートを利用して、デバイス上でのTransformerモデルのパフォーマンスを向上させましょう。

関連する章
- 0:00 - Introduction
- 1:36 - Training frameworks on Apple silicon
- 4:16 - PyTorch improvements
- 11:26 - ExecuTorch
- 13:19 - JAX features
リソース
- Forum: Machine Learning and AI
- - HDビデオ
  - SDビデオ
関連ビデオ

WWDC24
- Appleプラットフォームでの機械学習の詳細
WWDC23
- Metalアプリにおける機械学習の最適化
WWDC22
- Metalで機械学習を加速する
WWDC21
- Metal Performance Shaders Graphによる機械学習の加速
こんにちは Yona Havocainenです GPU, Graphics and Display Software チームのソフトウェアエンジニアです今日はAppleシリコンGPUで機械学習モデルとAIモデルをトレーニングする方法や今年追加された新機能をご紹介します
Appleシリコンはデバイスでの機械学習に対応する優れた機能を多数備えていますこの強力なGPUは最新のニューラルネットワークの最適化に必要な演算処理に秀でています
これをユニファイドメモリアーキテクチャと組み合わせることで GPUから直接大量のメモリにアクセスできます
大容量メモリによりデバイスでローカルに大規模モデルをトレーニングし実行できます
またトレーニング時に大きなバッチサイズを使えるため一般に収束が速くなります
さらにモデルの重みを複数のマシンに分散する必要がないのでトレーニングから導入までのプロセスが簡単になります
トレーニングはAppleのプラットフォームにモデルを導入するための最初のステップですモデルのトレーニングが完了したらデバイスへの導入を準備する必要があります
準備ができるとモデルはアプリに統合可能になります
機械学習モデルを導入するための全体的なフローの解説については Appleデバイスでの機械学習ワークフローに関するビデオをご覧ください
このセッションではトレーニングに焦点を当て Appleシリコン独自の演算能力を活用できるフレームワークをいくつか紹介します
この強力なGPUにアクセスするには Metalバックエンドを機械学習でよく使われるフレームワークのいずれかで使用します TensorFlow、PyTorch、 JAX、MLXです
TensorFlowは多くの業界アプリで使われる信頼性の高いフレームワークです
Metalバックエンドでサポートされる機能としては大規模なプロジェクトでの分散トレーニングやトレーニングのパフォーマンスを高める混合精度などがあります TensorFlowでのMetalバックエンドの有効化はこれまでになく簡単です Pipなどのパッケージマネージャを使って TensorFlowをインストールしプロジェクトにインポートするだけです
TensorFlowのMetalバックエンドの詳細は WWDC21のビデオでご確認ください
もう1つ広く使われているフレームワークがPyTorchです Metalバックエンドはカスタム操作やプロファイリングなどの機能に対応しているのでネットワーク性能を簡単にベンチマークして改善できます PyTorchでMetalバックエンドを使い始めるのも簡単です PyTorchをプロジェクトにインポートしてデフォルトのデバイスをmpsに設定します
PyTorchの Metalバックエンドの詳細については WWDC22のビデオをご覧ください
JAXは最近 Metalバックエンドのサポート対象フレームワークに追加され
サポートされる機能にはジャストインタイムコンパイルや Numpyのような使いやすいインターフェイスがあります
JAXのMetalバックエンドを使用するには jax-metalをインストールして JAXをプロジェクトにインポートします
JAXのMetalバックエンドについては WWDC23のビデオで詳しく説明しています
MLXはMetalバックエンドでサポートされる最新のフレームワークです
MLXはAppleシリコン向けに設計され最適化されていますサポートされる機能には NumpyのようなAPIやジャストインタイムコンパイル分散トレーニング　ネイティブのユニファイドメモリがあります
Python、Swift、C、C++用のバインディングも用意されています
Transformerモデルの微調整画像生成音声の書き起こしなど機械学習タスクを実行するためのサンプルはコードリポジトリに用意されています
MLXを使い始めるのは他のフレームワークと同じように簡単ですホイールをPython環境にインストールしてプロジェクトにインポートするだけです
MLXフレームワークの詳細についてはこちらのドキュメントとコードリポジトリをご覧ください
これでトレーニングに関する Appleシリコンの基本がわかったので今日のメイントピックに移りましょう新機能と改善点をいくつかご紹介したいと思いますが特に2つのフレームワークを中心にお話しします PyTorchとJAXです
まずPyTorchから始めましょう
1年前のWWDC23で MPSバックエンドの開発はベータ版段階に進みました
それ以降カスタムカーネル広範な操作への対応ユニファイドメモリアーキテクチャの
サポートが追加されましたまたパフォーマンスと機能の両面で数多くの改善と修正が加えられましたこれはPyTorch関連のオープンソースコミュニティに依るところが大きいです
様々なネットワークへの対応もこの1年で強化されました例えば最先端のTransformerモデル用の HuggingFaceリポジトリでは現在人気の高い上位50のネットワークを PyTorch-MPSバックエンドですぐに高速化できますこれには今年有名になった多数のモデルが含まれます Stable Diffusion、 Meta LLaMAモデル、Gemmaなどです
改善点については特に影響力の大きい 3つのTransformerモデルを取り上げますまず 8ビットと4ビットの整数量子化のサポートにより大規模なモデルでもデバイスのメモリに格納できます
融合型のスケーリングされたドット積アテンションにより多くの一般的なモデルのパフォーマンスが向上します
そしてユニファイドメモリのサポートにより GPUに演算処理をディスパッチする時に不要なテンソルのコピーがなくなります
ではこれらのトピックについてそれぞれ詳しくお話ししましょう 32ビット浮動小数点数やご覧の16ビット浮動小数点数などのデータ形式はモデルのトレーニングでよく使われます 1ビットは値の符号 5ビットは指数 10ビットは小数を表します精度はトレーニング中にパラメータを更新する時に役立ちますトレーニング後に量子化という手法を用いるとパラメータに必要なメモリを減らすことができます
同じ値を8ビットの整数として表すことで必要なメモリを半分に削減できますその利点としてモデルのメモリ占有量が小さくなり演算処理のスループットが向上しモデルによっては出力精度がほとんどあるいはまったく低下することなくこれを実現できます
スケーリングされたドット積アテンションは多くのTransformerモデルの中核ですこの操作の起点となるのはトークン化されたテキストの入力です
この入力はクエリ、キー、バリューという 3つのテンソルに分割されます
その後 3つのテンソルは一連の行列乗算スケーリング Softmax演算を通じて操作されます一連の操作を 1つのカーネル呼び出しに融合することで多数の小さな演算処理をGPUにディスパッチした時のオーバーヘッドを避け多くのネットワークの全体的なパフォーマンスを改善できます
最後に取り上げるパフォーマンス面の改善点は Appleデバイスのユニファイドメモリアーキテクチャがもたらす利点ですそれによりメインメモリ内にテンソルを単純に保持してメモリの領域間でビットをコピーする必要なしに CPUとGPUの両方からメモリ内のテンソルにアクセスできます
次にPyTorchに関する説明の締めくくりとして言語モデルを取得してカスタマイズしユースケースに合わせて微調整しデバイスで実行するためのワークフロー全体を紹介します
まずトーチをインポートし結果を再現できるようにランダムシートをロックします
人気のtransformersライブラリを使ってモデルとトークナイザーをダウンロードして設定しますこの方法により HuggingFaceリポジトリからモデルを簡単に取得できます
タスクのベースモデルとして 30億のパラメータを持つ OpenLLaMAバージョン2を使用しますまたモデルのトレーニングに使った対応するトークナイザーも必要です
微調整アダプタをモデルにアタッチするために peftライブラリとLoraConfigを使用しますアダプタのパラメータを定義してからベースモデルと設定を使って新しいPeftModelを作成します
これで演算デバイスのMPSにモデルを送ることができます
次に調整に使うデータを選択する必要がありますここではトレーニングの入力として Andrej Karpathyの tinyshakespeareデータセットを使いますこれはシェイクスピアの作品が 1つにまとめられたファイルです
データセットの読み込み後それをデータセットオブジェクトに読み込んでこのデータに使用するトークナイザーを指定します
調整のためにトレーニングパラメータをいくつか設定する必要があります Trainerクラスを使ってバッチサイズやトレーニングエポック数などの引数を設定します
データコレクタオブジェクトはトレーナーのオブジェクトのトレーニングバッチを形成します
これでモデル、引数、データコレクタ、トレーニングデータセットを渡してトレーナーオブジェクトを作成できます
トレーニングを始める前に微調整前のモデルの出力内容を確認しましょうちょっとした便利な関数を追加して入力テキストを受け取りモデルで使えるようにトークン化し出力を生成しトークン化を解除して人間が読めるテキストに戻すようにします
シェイクスピアの文章で試してどのような応答が返ってくるか見てみましょう
調整前のモデルは辞書の項目のように動作している感じに見えますまず引用文の出所を正しく示してから唐突に家長に関する説明に移っています
辞書と話してもあまり面白くないので微調整によってモデルに少し活気を与えてみましょう
trainerクラスでトレーニングを開始します先ほど定義したパラメータを使ってデータセットを処理します
しばらくするとトレーニングがデータセットに対して 10エポック実行されて終了します
では前と同じ入力で試してみましょう
メニーニアスの興味深いセリフですね微調整によって明らかに成果が得られました
では後で使えるようにモデルを保存します使いやすくするためにアダプタとベースモデルを 1つのエンティティにマージしトークナイザーもモデルと一緒に保存しておきます
モデルのトレーニングが完了したのでデバイスに導入して試してみたいと思います
ほとんどのネットワークで推奨される方法は Core MLを使って導入することです
この詳細についてはデバイスへのモデルの導入に関する解説をご覧ください
ここでは PyTorchエコシステム内にとどまり新しいExecuTorchフレームワークを使ってモデルを導入したいと思います
ExecuTorchの目的は推論のため様々なデバイスに PyTorchモデルを導入することです PyTorchトレーニングで定義したカスタムの操作は ExecuTorchでの導入でシームレスに使用できます
ExecuTorchでは MPS Partitionerで計算グラフが分析され MPSデバイスを使って認識パターンが高速化されます
こちらがローカルデバイスで ExecuTorchを設定する方法です
まずリポジトリのクローンをマシンに作成します
次にサブモジュールを更新します
最後にExecuTorchのビルド時にMPSのバインディングを使うオプションを渡してインストールスクリプトを実行しますでは ExecuTorchでモデルを導入する方法をお見せしましょう ExecuTorchリポジトリの例に沿って進めていきますテストモデルには Meta LLaMA2モデルを使用しますモデルはグループごとの量子化法を使用して 4ビット整数データ型に変換してありますそのためよりコンパクトで高速になっています
macOSでiOS向けのデモアプリをリポジトリにビルドし iPad Proを導入ターゲットとして使用します
アプリのビルド後使用するモデルとモデルのトレーニングに使った対応するトークナイザーを選択します
次にラザニアの作り方をモデルに尋ねてみます
ここでのクエリには LLaMA2プロンプトテンプレートを使っていますこのモデルはチャットボットのように動作するよう微調整されていてこの形式を想定しているからです
ExecuTorchを介してiPadでローカルに実行しているこのモデルは夕食に良いレシピをいくつか提案してくれていますただトマトとチーズが足りないようです
新機能と改善点を利用して PyTorchワークフローを高速化する方法については以上です次にJAXに追加された新機能について説明します JAXはMPS Graphでサポートされる一般的な機械学習フレームワークです
JAX-MetalプラグインはWWDC23でデベロッパ向けにリリースされましたそれ以来このプラグインは進化を続け多くの機能とパフォーマンス関連の更新が追加されています
このような更新には改良された高度な配列のインデックス作成
JAXの公式リポジトリでの CIランナーワークフローの採用
混合精度のサポートなどがあります
リリース以降に JAX-Metalバックエンドを採用しているユーザーを紹介したいと思います最初はMuJoCoですロボット工学や生体力学など高速で正確なシミュレーションを必要とするユースケース向けのオープンソースのフレームワークです
JAX Metalバックエンドを活用して Macプラットフォームを利用するユーザーに最高のパフォーマンスを提供しています
次はAXLearnですこれは大規模な深層学習モデルを開発するためのライブラリです Metalバックエンドによりローカルデバイスでのワークフローの迅速なやり取りとテストを実現しています
これらのライブラリを確認してどのようにJAX-Metalバックエンドが Macデバイスで優れた体験を実現するか試してみてください
次に JAX-Metalバックエンドに加えられた改善点について詳しく見ていきましょう JAXでの混合精度 NDArrayのインデックス作成パディングについて説明します
今年の更新内容の1つとして JAX-Metalフレームワークで BFloat16データ型がサポートされました
このデータ型は浮動小数点値の広い動的範囲を表し混合精度トレーニングなどのユースケースに適しています
この新しいデータ型は JAXの他のデータ型と同じように使えます
例えばこの新しいデータ型を使ってテンソルを作成できます
もう1つの改善点として NDArrayのインデックス作成と更新のサポートにより Numpyのような構文で配列を操作できるようになりました
例えば 2行2列の小さな配列を作成する場合 Numpyのインデックス作成構文を使って 1列目を10で割ることができます
JAXではパディングポリシーを定義できますがそのパディングポリシーが JAX-Metal バックエンドでもサポートされました
これを使うとダイレーションと呼ばれるパディングを要素間に追加できます
これはpad関数を呼び出して行いますこの関数は次元ごとに 3つのパラメータを受け取ります
ネガティブパディングでテンソルから要素を削除することもできます
これを行うにはパディング設定で負の値を渡します
JAXセクションの締めくくりとして JAXの使い方の簡単な例を紹介します先ほど説明した AXLearnライブラリを使いますそこからfujiの70億パラメータのモデルを選択して実行し先ほど説明した BFloat16データ型をモデルに使います
このスクリプトは小さな入力をランダムに作成しそれをモデルに渡して次のトークンを生成するようモデルに要求します
出力ではロジットと結果のトークンが示されます
予測が終わったら同じスクリプトをもう一度実行しますただし今度は環境変数を使って CPUで実行するようにJAXを設定します
ご覧のようにこの推論で CPUの出力がMetalバックエンドの出力と一致していることが確認できたのでデモを終わります
JAXとこのWWDCに関する今回のプレゼンテーションはこれで終了です今日お話しした内容をまとめましょう
Appleシリコンで利用できるユニファイドメモリアーキテクチャは様々な機械学習のタスクに重要なメリットをもたらしますより大きなモデルとバッチサイズを使えるようになるうえ CPUとGPUで同じメモリにアクセスできるため CPUとGPU間のコピーも不要になります
PyTorch、JAX、 TensorFlow、MLXといった人気のあるフレームワーク用の Metalバックエンドを通じて強力なAppleシリコンGPUを使用できます今年は人気の高いTransformer クラスモデルのサポートについて様々なパフォーマンスの強化が行われています
そうした更新を活用するためにもぜひフレームワークの最新リリースを使用していることを確認し macOSも忘れずに更新してください
ご視聴ありがとうございましたこれらの新機能が皆さんのお役に立てば幸いです

関連する章

リソース

関連ビデオ

WWDC24

WWDC23

WWDC22

WWDC21