データサイエンティストは当事者でいられるか

こんにちは、シバタアキラです。自分にとってキャリアの転機になった出来事にリーマン・ショックがあります。当時私はちょうどリーマンショックの震源地から遠くないニューヨーク大学で、素粒子物理学の巨大プロジェクトに関わっていました。外では経済が混乱を極め、多くの人々が職を失うという事態にありながら、自分は全く世の中の変化とは無関係なことに従事し、全くその影響を受けることなく、現実味のない隔離感を味わっていました。もちろん影響がなかったのはいいこととも言えますが、どちらかというと私のはむしろもっと世界と繋がり、その酸いも甘いも共にしたいと感じてしまったのです。そして今、コロナウイルスとともに、2008年以来の危機が訪れ、当時とは随分違う立ち位置で、自分のできることを考えています。

データサイエンスの利点は危機的状況下においては弱点と化してしまいます。幅広い、大量のデータに依存していては手遅れ感のほうが先に頭をよぎります。一方で、誰もが想像(もしくは期待)していたよりも遥かに酷く、長期化した状況下にあってデータも蓄積されて来ており、その有用性は高まって来ているとも考えられます。2週間前にKaggleは、John Hopkins大学とホワイトハウスと組んで、感染者数予測のコンペを開始しました。このコンペにおいては精度予測の高さを競うこと以上に、鍵となる科学的質問に対する解を見つけられるかというテーマが提示されています:

  • 各地で行われている介入行為(学校閉鎖、イベントの自粛、人混みの回避など)が感染者数に対してどのような影響を持っているのか、またその影響は社会的・経済的悪影響を上回っていると考えられるのか
  • 各地域の環境(例えば温度や湿度、公害など)はこのウイルスの感染力、潜伏期間、汚染領域の消毒方法などにどのような影響を与えるのか
  • どのような健康リスク要因(喫煙、基礎疾患など)がCOVID-19の感染・被害にどのような影響を与えるのか
  • 各地域の危機対応能力にはどのような差があるのか。またそれを決定づける因子は何なのか?例えば医師の数、病院の数、もしくは特定の設備の数なのか

これらどれもが現在の状況の改善に超重要な質問であることは非常に明確で、まさにデータサイエンスこそがこの状況を打開する鍵・・・であればよいのですが、当然世界はそんなビューティフルには出来ていない。どのようなデータが必要なのか、それは集められるのか、どのような手法を使えばいいのか、やってみたら何が見えてくるのか、それの繰り返しの中から少しずつ進んで行くしかないのは皆同じ状況です。

私の働くDataRobotのアメリカ本社では、上記Kaggleコンペに協力する形で、関連データ(例えばここにある)の分析を行うデータサイエンティストや研究者向けに無料ライセンスを提供し始めました。私も急遽チームを招集して、日本でもこの取組を開始するために各プロセスのローカライズから告知までここ1週間で行いました。日本でも、SIGNATE上でCOVID19チャレンジが行われていることを知り、即CEOの齊藤さんに連絡し、協力させてもらえる事になりました。

この歯がゆい状況の中で何か出来ないのかという思いを持ったデータサイエンティストも多いのではないでしょうか。少なくとも私のチームでもそのような声が上がり、今週からは毎日データ x AIがどのように現況の役に立つのかを議論し、行動しています。答えなければならないことは多岐に渡ります:

この現状の改善するためにデータサイエンティストが出来ることは?

上記Kaggleコンペにもある重要な質問に解を求めると同時に、また直接的には治療薬の開発に向けた、有効化合物の探索などのテーマにおいても英国国立シンクロトロン施設主催のオープンイノベーションの試みが行われています。感染者の属性や基礎疾患等の情報などをもとに症状を予測したり、治療の効果を予測(例えばECMOを使うと症状の回復する患者を探す)にも機械学習のアプローチを応用することが出来るはずですが、治療の記録などをかき集めて来なければなりません。

この状況にあって、データ x AIの活用は何に注意しないといけないのか

2020年は予測モデルにとってはチャレンジの多い年になるでしょう。といえば聞こえ方はマイルドですが、類を見ない状況下において先行きを予測する難易度が上がるのはAIであっても同じです。ウイルスが流行ったらマスクや消毒液が売れるのはわかるとして、調理家電や蓮根の売上が伸びたり、高級肉の価格が下がったり、そんなことが起こっている昨今。私達にまずできるのは、AIの予測の精度にどのような影響がでているのかをしっかり監視し、短期間でモデルを再生成するなどのMLOpsの手法を取り入れたり、より変化に対してロバストなモデル(長期的な時系列変数に依存しない)を作ることなどが重要で、DataRobotでもそのような手法をを解説しています

この危機が去った後にデータ活用はどのように変わっていくのか

今後また正常が訪れたとしても、その記憶はAIにも留める必要があります。これらのデータは今後また世界的な感染症が流行した際には貴重になりますが、ノーマルな世界においては、”コロナ影響”フラグを立てたり、その部分のデータを学習から外す又は修正したりの対応が必要になってきます。一方で、ノーマルに戻るとはいっても、需要の先食いによる影響の残存や長期的な行動変容なども考えられるため、頭痛を引きずることになるかもしれません

危機的状況下において、当事者として関わり、貢献することが出来るのか。また、したたかにも、この危機が去った後に巻き返すための準備をしていくことが出来るのか。データサイエンティストにも真価が問われていますが、少なくとも今は素粒子のことよりもリアリティーに直面できていることに喜びを感じます。