SGD vs Adam、クラス不均衡が性能差の鍵だった

「なんとなくAdamを使っている」に答えが出るかもしれない
SGDはなぜ低頻度クラスで詰まるのか
Adamが安定して進める理由
ハイブリッド運用という現実的な選択肢
フリーランスへの影響

「なんとなくAdamを使っている」に答えが出るかもしれない

深層学習のモデルを訓練するとき、多くのエンジニアはほぼ反射的にAdamを選びます。収束が速くて安定している、という経験則から使っている方も多いのではないでしょうか。一方でSGD（確率的勾配降下法）は、適切にチューニングすれば最終的な精度でAdamを上回ることもある、とされてきました。ただ、この「なぜ差が出るのか」という部分については、長らくはっきりした説明がなかったのも事実です。最近の研究は、その謎に対して一つの有力な仮説を示しています。それが「周波数バイアス（frequency bias）」と呼ばれる現象です。

SGDはなぜ低頻度クラスで詰まるのか

SGDは、ミニバッチごとに計算された勾配をそのまま使ってパラメータを更新します。シンプルで直感的な仕組みですが、この方法にはひとつ弱点があります。データセット内で出現頻度の少ないクラス、たとえば画像分類で「特定の希少な種」や、テキスト分類で「ほとんど登場しないカテゴリ」などに対して、勾配の更新量が小さくなりがちなのです。出現頻度が低いということは、そのクラスに関連するパラメータが更新される機会も少ないということ。結果として、低頻度クラスの学習が停滞し、全体の性能を引き下げてしまいます。

研究では、この「低頻度クラスの損失に重み付けをする」という介入だけで、SGDの性能が改善するケースが確認されています。つまり、SGDが弱い場面の一因は、アルゴリズムそのものの限界というより、クラスの偏りへの対処ができていないことにある、という見方です。これは実務的にも示唆が大きく、たとえばクラスウェイトを調整したり、オーバーサンプリングを組み合わせたりするだけで、SGDの弱点を補える可能性があります。

Adamが安定して進める理由

一方のAdamは、一次モーメント（勾配の平均）と二次モーメント（勾配の分散）の両方を保持し、パラメータごとに学習率を適応的に調整します。少し噛み砕くと、「これまで勾配が小さかったパラメータには大きめの更新を、逆によく動いていたパラメータには小さめの更新を」という制御を自動的に行っているイメージです。

この仕組みのおかげで、低頻度クラスに対応するパラメータも、SGDと比べて着実に更新が進みます。ノイズの多い勾配や、スパース（疎）な勾配に対しても安定しているのは、この適応的な更新量の調整によるところが大きいとされています。画像認識、自然言語処理、レコメンデーションなど、クラスの偏りが起きやすいタスクでAdamが好まれるのは、こうした背景があってのことと言えます。

ハイブリッド運用という現実的な選択肢

「ではAdamだけ使えばいいのか」というと、話はそう単純ではありません。Adamは収束が速い反面、最終的な汎化性能ではSGDに劣るケースも報告されています。そこで実務的に注目されているのが、最初はAdamで素早く損失を下げ、ある程度収束したらSGDに切り替えて微調整するというハイブリッドな運用です。

たとえば大規模な言語モデルの事前学習では、序盤のAdamによる高速収束が計算コストの削減に直結します。その後のSGDによるファインチューニングで精度を磨く、という流れはすでに一部の研究や実装で取り入れられています。クラス不均衡が顕著なデータセットであれば、SGDフェーズと組み合わせてクラスウェイトの調整を加えると、さらに効果が出やすいとも言われています。

ただし、この研究はあくまでクラス不均衡が性能差の「主要因の一つ」である可能性を示したものです。実際のモデルでは学習率のスケジュール、バッチサイズ、正則化の設定など、さまざまな要因が絡み合っています。Adamがすべての状況で最良だと断言するものではなく、「なぜ差が出るのか」を理解した上でツールを選ぶための視点を与えてくれる研究、と受け取るのが適切です。

フリーランスへの影響

機械学習エンジニアやAIエンジニアとしてフリーランスで仕事をしている方にとって、最適化アルゴリズムの選択はクライアントへの提案に直結します。「なぜAdamを使うのか」「SGDではなくAdamを選んだ根拠は何か」という問いに、技術的な背景から答えられるかどうかは、信頼性に関わってきます。

特に医療データや金融データなど、クラス不均衡が構造的に発生しやすい領域のプロジェクトでは、今回のような研究知識が実際の設計判断に活きてきます。「低頻度クラスの精度が上がらない」という課題に対して、損失の重み付けやオプティマイザの切り替えをセットで提案できれば、それだけで差別化になります。収益に直接つながるかどうかは案件次第ですが、技術的な引き出しが増えることで、対応できる案件の幅が広がるのは確かです。データサイエンティストやリサーチエンジニアとしての専門性を高めたい方には、目を通しておく価値のある内容です。