仮説ドリブンだからこそデータドリブンが成り立つ

こんにちはシバタアキラです。書くたびにご無沙汰のこのブログですが、今年は年初に数値目標も自分に課してしまったので、つらつらと発信していきたいと思います。発信したいことは山ほどあるんです。

AI・AIの掛け声で誰もが振り向いてくれたメディアバブルは2017年とともに終わりを迎えた感があります。今年はよりリアルで、より業界に特化し、よりパワフルな機械学習応用事例を誰もが望んでいると思います。例えばこんなこととか。今年はどんどん仕掛けていきます。

理論的なモデルが無いときに機械学習

機械学習技術の素晴らしいところは、モデルを人間が作らなくていいことです。マーケティングなどでは人間の行動が予測対象になるため、そもそも理論的なモデルを作るのは困難です。製造業でも、物理的なモデルを作るのが困難にな場合は多いです。例えば叩く・削るなどの工程は物理モデルを作ることが難しく、統計的な機械学習手法に軍配が上がります。モデルを人間が作らなくていいということは、極論すると対象事象に対しての理解をしていなくても良いと解釈できるため、「データが有れば仮説はいらない」ということを耳にすることがありますが本当にそうなのでしょうか?

仮説なしに分析をするとどうなるのか:物理学での例

私が素粒子の実験でポスドク研究員をしていた頃の私のボスは統計モデルの権威で、私たちは理論から生まれる強い仮説を実験データを使って検証する仕組みを開発していました。科学における発見の王道アプローチが「仮説の検証」です。理論が提唱する仮説に対して正しいのか正しくないのか、という最もシンプルな検定を行い、その理論を受け入れるのか否かを決定します。現在知られている多くの統計手法はこの文脈で生まれて来ましたし、私が開発していた仕組みも、特定の理論の検証を行うためにその仮説を詳細にモデル化し、観測データとの差異を計測するものでした。ヒッグス粒子の発見のケースなどは、実に半世紀も前に提唱された理論を証明するために幾つもの巨大な実験が行われた末に、激しくノイズの多いデータから緻密なモデリングの上に発見されたのでした。

物理学の歴史はこのアプローチが非常に強力であることを証明しています。偉大な大発見の殆どは理論的な仮説に基づき、それを検証するために実験を設計し、狙い撃ちしたデータを収集します。実験には多額なお金がかかるので数多ある収集可能なデータから、特に効果的なものを理論から逆算して選択します。

一方で「データがいっぱいあるんだったら、一つの仮説の証明のためだけじゃなく、とにかくデータだけ見て何か新しい事を見つけに行こう」というお宝ハンター的なアプローチをする人も中にはいます。「モデルフリー」などと言われるこのアプローチでは、データをしらみ潰しに見てその中に未知の特徴や驚きの傾向を探します。

このアプローチを極めようとしていたのが私のボスの友人のBruce Knutesonという人物で、実験から収集されたありとあらゆるデータを統合し、お宝ハンティングを行っていました。既に過去に証明されている理論を統合し、観測データのあらゆる側面と比較することで、予期される誤差以上の異変を探すというアプローチです。特定の新しい理論の検証は行いません。彼が現役の頃(その後彼はヘッジファンドに行ってしまった)一度彼の発表を見たことがあるのですが、その情報量の多さに圧倒されました。一つ一つの観測を本来ならばPh.D.の学生が卒論を賭けて分析するようなものを、彼は何十個も一つの研究で行っていたのです。

その分析で何を彼が発見したのかというと、新しい発見は何もありませんでした。色々見たデータの中で、一部には少し意外なものも含まれていましたが「新しい観測」ましては「発見」につながるような結果は一つもありませんでした。結果として彼が発見したのは「中には少し意外な結果もあった」という程度のものです。彼のその時の発表の結果を下記に抜粋します。専門的でわかりにくいですが、左側のグラフは意外な結果の数を数えていて、分布の端にあるほど珍しいのですが、当然珍しい結果はあまり観測できていません(このグラフで±5以上ならば「発見」となります)。珍しいものはあまりない・・・至極まっとうですがなんの驚きもない結果です。

Screen Shot 2018-02-11 at 23.25.59.png

どこでも効果に気をつけろ

いろいろなデータを見ていたら中には意外に見えるものもある・・・これには専門的な名前があって『どこでも効果』(Look Elsewhere Effect)と言います。統計的な分析(機械学習も含まれる)におけるインサイトとは、常に統計的な偶然と隣り合わせです。つまり「もしこの結果が偶然だとするとそれは1000回に一回の偶然」というような言われ方をされますが、もしも1000回実験をしたら1回起こってしまうのです。また、実験自体は1回しかやっていなくても、1000回の様々な検証を行ったら、中には1つは「1000回に1回」レベルの偶然を発見してしまうのです。仮説を持たずに分析することの危うさの理由の一つははここにあります。データだけを闇雲に見ていると、たまたま現れた有意に見える現象を重大なインサイトだと勘違いしてしまいます。

仮説ドリブンなデータ収集の重要性、でも仮説に囚われると周りが見えなくなる

それ以外にも仮説を持たないことの危険性はデータの収集にもあります。「考えうるすべてのデータを収集する」なんていうことはそもそもが不可能です。綿密に設計した分析でも「あとあのデータがあれば」なんて言うことは日常茶飯事ですし、データ化することの出来ることに限りはありません。当然現在たまたま収集出来ているデータがどんなにビッグデータでも、いま検証・モデル化しようとしている対象に対して有効である保証は何もありません。検証したいという事象からはじめ、それに必要となるデータを戦略的に収集していくことが重要なのはこのためです。

 

一方で、勘の良い人ならばこう思っているかもしれません:そもそも仮説はどこから来るのか?まずデータを見なければ初期仮説も生まれないのではないか?確かにその通りです。とは言え多くの場合人間はデータを明示的に収集する前から自分の経験からぼんやりとでも仮説を持っているものです。そういった初期仮説は初期データを収集するために役に立ちます。しかし、初期仮説が正しくなかったり、ずれている場合も往々にしてありますので、幅広にデータ収集をするのが効果的になります。つまり、全くなんだかわからないデータではなく、「もしかしたらこれも関係あるかも」くらいの薄いつながりのものも、可能な限り分析に含めて行くということです。仮説ドリブンではありながらも、仮説に囚われずにデータ活用を行うことで、はじめには持っていなかった新しいインサイトを発見することにつながるでしょう。

DataRobotではチームメンバー募集中

トップKagglerも多数在籍することで知られるスーパーチームで、データサイエンスと機械学習の未来を一緒に作りませんか?私たちは金融、マーケティング、製造業等あらゆる業界で先進的な取り組みをされているお客様達と革新的な製品を通じて機械学習技術の先端応用事例を創出しています。ここ2年でDataRobotは信じられない勢いで成長し、それに伴ってチームも素晴らしいメンバーで増強し、今は日々チームと一緒に仕事するのが楽しい毎日です。データサイエンティストだけでなくビジネスポジションも多数オープンしていますので興味のある方は是非お気軽にご連絡ください(akira あっと datarobot どっとcomまで):求人一覧はこちらから。また、弊社データサイエンティストのブログはこちらから。