統計学が最強の学問であり、学問とはその程度であるということ

Screen Shot 2015-02-27 at 1.56.58 AM

シバタアキラです。先日書いたブログが500はてブ超えたのを励みに、引き続き熱く語っていきたいと思っております。

きょうは、弊社白ヤギコーポレーション毎週開催している勉強会記念すべき第十回目を行いました。回を重ねるごとに私の思いはどんどん確信に変わっていきます。「統計学が最強の学問であり、学問とはその程度である」ということです。そして私が白ヤギコーポレーションを設立した時の決断は、やっぱり正しかった。

本日お話いただいたのは弊社のインターン、増山に加え、株式会社ウフルの下野さんでした。テーマは「なぜ40個のサンプルで調査をするのか」

こんな内容でした:

統計学に鋭い洞察をお持ちの下野さん。素晴らしい切り口で、数式をひとつも使わずに統計のチカラを語っていただきました。例えば、2つの事象に相関があることを90%の確度で確認するには37のサンプル(実証実験)が必要であるということです。相関がある、というのは例えば同一年齢同姓の親子の身長に相関がある(親が背が高ければ子供も背が高い)なんていう例があります。さらに、その相関が弱ければ弱いほど必要となるサンプルは猛烈に増えます。例えば、私が強い意志を持って起業することと、設立した会社が成功することなどは、非常に低い相関の例です。(残念ですが、統計的にはという話)

最強の学問で干し草の山の中から1本の針を見つける

統計学が最強の学問であるなどということが言われ、統計学チカラは広く認められ、そしてもてはやされているようです。他人ごとのように書きましたが、私も長年統計学のチカラを強く信じ、そのチカラを使って世紀の大発見を行うための研究を行っていました。結果「神の粒子」と言われるヒッグス粒子の発見につながり、提唱したヒッグス氏のノーベル賞へとつながったわけです。

私が行っていた研究は、実験を行い、そのデータの中に見つかった事象がどれくらい確からしいのか、ということです。量子力学の性質上、結果は統計的にしか証明することができません。つまり、ヒッグスらしきものが一回生成できた、では発見とは呼べないのです。量子理論によるとあらゆる事象が起こる確率は有限(つまりゼロではない)であり、どんなに現実離れした出来事(例えば理論的には「ありえない」重さを持った粒子が「ありえない」性質を持って観測されること)でも、実験を繰り返せばいつかは発生するのです。実験の性質上ノイズの介在を避ける事ができず、また実験に加え様々な理論的前提をおいた上で初めてデータを理解することができるようになるため、その理論自体の不確定性も加味する必要があります。

私の研究はそんなノイズだらけ、不確定性だらけのデータを見た時に、それでもこの仮説はたしかに正しい、といつ言えるのか、先ほどの事例では37このデータの中に15個探している特徴を持つデータがあって初めて「発見」と言える、というようなルールを見つけることです。実際には37ではなくもっと大量のデータであるわけですが、その数は一体いくつなのか。そしてその数は出来る限り小さいほうがよく(より速く発見することができるから)ギリギリの線がどこにあるのかを見つけることが私の研究課題でした。ベイズの理論を応用した限りなく精緻なモデルを作りました。私が当時働いていたニューヨーク大学で行われた学会のポスターセッションのために可視化したベイズモデルは、A1の巨大な紙を軽々と埋めつくしました。Screen Shot 2015-02-27 at 1.15.17 AM

ギリギリの線とはいっても、非常に発生する確率の低い事象を証明するために必要なデータは膨大で、”Needle in the haystack” (「干し草の山の中から1本の針を見つける」)と言われます。こんな絵で嘲笑されるほどでした。finding-a-needle-in-a-haystack

そのような実験に携わるうちに、私の考え方はどんどん統計的になっていったように思います。「いまこれをすることが正しいのだろうか?」「まだ十分なデータ(経験)を見ていないのではないかだろうか?」

本当に大切な決断を行うためのデータは常にたりない

もしかしたらこれは多くの人にとって当然のことといえば当然のことなのかもしれませんが、私にとっては大きな「発見」でした。2013年の1月私は深く悩んでいました。渡辺という、後に一緒に会社を始めることになるパートナーと、「自分たちだったらきっと素晴らしい会社を作れる」と熱く語り合い、それでも簡単には仕事を捨てそこに踏み出すことはできませんでした。行動をしない理由はいくらでもありました:

  • 本当に相手が正しいパートナーなのかどうしたらわかるのか
  • いまの(給料の良い)仕事を捨ててリスクを犯していいのか
  • 家族(ふたりとも子供がいた)のために正しい決断なのか

どれもとても重い決断でした。もちろんいろいろな人に相談し、いろいろな本を読み、お互いに毎週話し合い、考えれば考えるほど答えらしきものを導き出すことは難しいように見えました。そしてある時(これはこれで長い話なんですが)気づいたのです:歴史は繰り返す様で繰り返さない、だから確証を得るだけのデータは絶対に存在しない。

統計的に考えるならば、同じ状況にある人達を見つけ、その人達が成功するのかどうか37回なり20回なり観察し、自分たちが成功に強く相関すると思うパラメーター(どれくらい本気なのか、とか?そんなものそもそもないんだけど)に対し、統計的に優位な相関が認められるか、それがわかって初めて行動できるわけです。

これでは一生どころか人生がいくつあっても行動できない

人生において何回かしかしないような大きな決断を決めるときには、統計は全く無力です。そういう状況は非常に特異性が高く、「サンプル」なんてものは存在し得ないからです。もちろん、歴史から学ばなくてはいけない、先人の言葉からヒントを探さないといけない、そしてできるだけ役に立ちそうなデータらしきものを冷静に論理的に評価しないといけない。でもそれはもう統計学ではないんです。最強の学問は、「37のサンプルが必要」と教えてくれるだけです。

私はいまでも統計学のチカラを否定する理由は全くありません。下野さんのプレゼンは素晴らしかったし、多くを学びました。難しい判断を正しくしていく上で、可能な限り統計的な情報から知見を引き出す努力を惜しんではいけないと思います。しかし同時に統計学の限界もよく知っています。そしてそれに気づいた時私が得たものは絶望ではなく、大きな喜びでした。世界は繰り返さない。世界は今とは違うものになる。そんな時に私達に必要とされるのは、統計学ではなく、無鉄砲な確信と勇気なのではないでしょうか。

いい加減恥ずかしくなってきたので今日はこのへんで。毎回白ヤギのAIAL勉強会はアツイ議論が繰り広げられ、メンバーや参加者の強い思いをジリジリと感じる素晴らしい会です。これからも「深く知ることで、生きることを豊かに」というビジョンを達成するために、カメリオをどんどん素晴らしいサービスに育てたい、と決意を新たにした夜でした。まだまだ未熟なサービスですが、お使いいただいたことのない方はぜひ一度お試しください。最近アップデートも行いました。詳細はこちらから

そして白ヤギでは自慢じゃないけどスンバラシイこのチームに加わりたい方を大募集中です。詳細はWantedlyを御覧ください。