ベンチマークの功罪

ベンチマークで評価しただけの論文が好きではありません。

ベンチマークは正しく使えば科学技術の発展におおいに貢献します。私が専門としている自然言語処理という分野では、ベンチマークが整備されると技術開発が急激に進展するというパターンがここしばらく繰り返されています。

その一方で、新しい手法をベンチマークで評価した結果をまとめただけのものが「論文」として投稿されたり採録されることが増えている気がして、個人的にとても気になっています。

ベンチマークは研究の参入コストを下げる

ベンチマークの大きな利点はなんといってもその明快さだと思います。決められたタスクをこなし結果を決められた手順で定量的に測定する。そこに思惑やイカサマが入り込む余地はありません。よく知られたベンチマークでこういう結果が出ましたと言えば、通常その結果は信用されます。（自前で用意したデータなどを使うとなかなかこうはいかず、データの信用性などから納得してもらわないといけないので大変です。）

結果が容易に信頼されるようになると新規参入のコストは大いに下がります。自然言語処理の分野でも、機械学習や音声認識など異分野の人たちが突如参入してきてベンチマークで素晴らしい結果を出す、ということが何回も起きています。新規参入が起こると研究が活性化され、アイデアを生まれ、さらに研究が加速していくという好循環が生まれます。参入コストが下がることは競争の激化も意味しますが、競争なく内輪ネタ化していく研究は先がありません。ベンチマークが研究にもたらす効果はそうじてプラスだと思います。

すべてのベンチマークはフィクションである

その一方、結果のわかりやすさゆえにベンチマーク結果を良くすること自体が目的化してしまうことがあります。

OnePlusなど中国メーカーのベンチマークテスト偽装が発覚。

新興のメーカーが知名度やサポートの手厚さなどで大手と競争するのは大変です。よく知られたベンチマークで良好な結果を出して名を挙げるというのは当然考えられる戦略です。ですが、ベンチマーク「だけ」を良くしても意味はありません。ベンチマークの結果を良くするために使われた技術が、現実的な状況でも役に立たないと仕方ないのです。

そもそもベンチマークは、実際に使われる環境でテストするのはコストがかかるときに、その代替物として使われるもので、現実とは異なる環境でテストを実行します。つまりフィクションです。

世の中には、現実との違いをうまく利用（悪用）して良い結果を得ようと考える人がいます。やっかいなことに意図的に利用しようとしなくても、真面目にベンチマークテスト結果の改善に努めているうちに結果として「うまく利用した」ことになってしまう場合もあります。

ベンチマークは語らない

ベンチマークでの結果がはたして現実的な状況でも再現するのか、それとも（たまたま）ベンチマーク特有の事情を利用しただけで実際には再現できないのか。それはベンチマークの結果を眺めているだけでは分かりません。なぜそのような結果が得られたのか、適用した技術と関連づけて説明することができて始めて、実際の問題での再現性について予想することができます。

別の言い方をすれば、いくらベンチマーク結果がよくても「なぜ」の説明がないと別の問題に適用したときに何が起こるのかまるで予想がつきません。科学技術の力はその予想力にあります。「○○の条件のもとで□□すると××になる」という知識の総体が科学だと言ってもいいかもしれません。「このデータで□□すると××になりました」というのは観察結果であり、知識以前の情報でしかありません。

論文に求められるのは新たな知識であり単なる観察結果ではありません。もちろん様々な観察を積み重ねていくことは知識の発展のために重要です。しかし、いくら観察結果が増えても知識が増えたことにはなりません。観察結果はある特定の事象を報告したものです。知識はある事象のクラスについて一般的になりたつ事柄を述べるものです。前者で後者を置き換えることはできません。

測られていないものについて沈黙してはいけない

科学知識に「絶対」はありません。観察結果をある仕方で説明しても、それが絶対に正しいという保証はありません。しかし説明を試みることで仮説が生まれます。するとその仮説を検証するためにあらたな実験、あらたなベンチマークが生まれます。そして、その観察結果を説明しようとすることで、またあらたな仮説が生まれます。

このプロセスを繰り返していくうち、一つの仮説で複数の観察結果をできることに気づきます。こうして仮説と観察結果のつながりを増やしていくと、なんとなく仮説のネットワークができあがります。それとともに個々の仮説を支える観察結果も増えてきます。そうすると全体の信頼性が高まり、だんだんと知識体系と呼べるものに進化していきます。

こういったことは、すべて観察結果を説明しようと一歩踏み出すところから始まります。ベンチマークの世界は明快で確実ですが、それを説明しようとすると途端に曖昧で不確実な世界に入り込みます。そこでは「根拠がない」ことについても語らないといけない場合もあります。しかし尻込みしてはいけません。

根拠が少ないことと間違っていることは違います。確実な根拠がなくても合理的に観察結果を説明できるアイデアは勇気を持って主張するべきです。そして、それを聞く側も「根拠がない」ことと「間違っていること」は峻別して、フェアに受け入れなければなりません。そうでなければ科学は死んでしまいます。

間違ってすらいない

著名な物理学者であるパウリはかつてある論文を次のように酷評したそうです。

「この論文は正しくない。間違ってすらいない。」

ベンチマークの結果に正しいも間違いもなく、それ自体に科学的な価値はありません。しかし説明はたとえ間違っていても価値を生み出します。ベンチマークの結果をまとめただけの「間違ってすらいない」論文を書きそうになったら、思いきって間違った説明をしてみましょう。世界は新しいアイデアを待ちわびています。