サイコロと深層学習

Dice

あるサイコロを振って1の目が出たとします。それをもって、このサイコロは1が出やすい、と言うことはできません。何回も振り直したときに1が多く出て、はじめて1が出やすいと言えます。

あるモデルを機械学習させた結果、精度Xが達成されたとします。それをもって、この学習アルゴリズムは精度Xを達成しやすい、と言うことはできません。何回も学習させたときにその精度が達成されることが多かったら、はじめてその結果が出やすいと言えます。

深層学習も含め多くの機械学習アルゴリズムは非決定的です。学習結果は、モデルパラメータの初期化の仕方、学習データの使われる順番、複数の計算機を使う場合だとパラメータの同期の順番、など様々な要因が影響するため、学習アルゴリズムと訓練データを固定しても全く同じモデルが得られることはまずありません。したがって、サイコロの場合と同じで、一回の試行(学習)結果だけをもって学習アルゴリズムについて何か統計的に有意なことを語ることはできません。

注意しなければいけないのは、ある特定のモデルが達成した精度について議論することと、その学習アルゴリズム(ここではモデルの構造だけではなく、パラメータの初期化方法、最適化手法なども含みます)が達成する「精度」について議論することは、違うことだということです。

サイコロの例で言うと、一度振って1の目が出たとしたら、「そのとき1の目が出た」という結果自体は疑う余地のないことですが、それをもって「そのサイコロは1の目が出やすい」ということは間違いだということです。同様にある学習アルゴリズムを使ってできたモデルが精度Xを達成したら、「そのモデルが精度Xを達成した」というのは疑いようがありませんが、それをもって「その学習アルゴリズムは精度Xを達成しやすい」と主張するのは間違いだということです。

一般に、ある特定の出来事(「そのとき1の目が出た」「そのモデルが精度Xを達成した」)についての知見はひとつの観察事例としては有用ですが、そのままでは他の状況でも適用可能な知識(「そのサイコロは1の目が出やすい」「その学習アルゴリズムは精度Xを達成しやすい」)とはなりません。本来、学術論文では、事例の報告だけではなく、そこからどのような知識が得られるかを根拠を持って主張するはずのものですが、昨今の深層学習界隈の「論文」では数少ない事例から憶測で誇大な主張をしているものが散見されます。根拠が弱い主張を信じて損をするのは短期的には信じた側です。サイコロの一振りにかける博打打ちにならないように注意しましょう。

コメントを残す

以下に詳細を記入するか、アイコンをクリックしてログインしてください。

WordPress.com ロゴ

WordPress.com アカウントを使ってコメントしています。 ログアウト /  変更 )

Facebook の写真

Facebook アカウントを使ってコメントしています。 ログアウト /  変更 )

%s と連携中