ビッグデータ技術は「ビッグデータサイエンス」をどう変えるのか

ph1-2

シバタアキラ (@punkphysicist) です。

2012年7月にCERN(欧州原子核研究機構)から発表されたヒッグスボゾン(ヒッグス粒子)の発見は文字通り世紀の大発見だった。半世紀近くに及ぶ探索の末に成された偉業は、それまでの科学の歴史上最も大量のデータを解析することで実現した。

私はこの発見に6年間近く関わったが、ビッグデータを扱うスタートアップ企業に職を転じてから当時を振り返ると、意外にもこのデータ解析を行っていた物理学者たちは近年著しく成長するビッグデータ技術の恩恵をほとんど受けていないことに気づいた。大量のデータを扱う多くの科学分野において、データはいまだに前時代的な処理技術を使っている。逆の見方をすれば、エンタープライズ分野で成長したビッグデータ技術が今後「ビッグデータサイエンス」を大きく進歩させるポテンシャルを持っている。

古典的なデータ処理技術に基づく科学データの解析

高エネルギー物理学の歴史はデータ処理の進歩の歴史と言っても過言ではない。加速器から発生するデータの処理には1970年代からコンピュータが使われ、そのデータ量は年々増加。ヒッグスボゾンの発見に至った最新の実験であるLHC(Large Hadron Collider)では、3年間で100ペタバイト以上のデータが記録され、解析された。世界中の図書館にある本のデータ量の総和が50ペタバイトといわれることからもそのデータ量の大きさが際立つ。

実験データの処理に最先端の技術が必要なことは早くより認知され、そのための分散コンピューティングシステム、「グリッドコンピューティング(GRID)」の構築はそれ単体でも非常に大きな国際プロジェクトだ。私がLHCに加わった2005年頃はミドルウエアの開発が進みGRID全体が1つのシステムとして動き始めた時期だった。

GRIDを使った大規模データ処理システムの設計は古典的なデータ処理技術に基づいている。端的に言うとそれは、プログラムの走るコンピュータにデータの保存されている記録媒体をつなぎ、必要に応じて読み込んでくるという手法だ。

分散処理による分析をする際には、同一の解析プログラムを多数のコンピュータで並列起動する。各コンピュータが少数のファイルを処理することで全体の処理能力を上げるが、処理前後のデータ転送に多くの時間がかかるため、結果としてプロセス全体の対話性が非常に低い。たとえて言えば、家で使う水を遠く離れた川から汲んでくるような仕組みだ。

データの保存形式の効率化や、記録媒体とネットワーク技術の進歩によって、より複雑な処理に適した効率よいデータの読み込みが行われるようになったとはいえ、データ量の増加でシステムが大規模になっても根幹部分は進歩していない。大規模な分析を完了するためにはいまだに数日から数週間かかることもある。

この結果は日経ビッグデータで御覧ください:リンク