5月13日に六本木ヒルズクロスポイントで行われたFluentd Meetupに参加してきた。
この手の勉強会に参加するのはすごく久しぶりだったが、懐かしい人たちにも会えて、とても楽しい時間をすごせた。
当日の発表については詳しいレポートを書いてくれている人がいるので、そちらを見てもらうとして、ここでは1つだけ取り上げたいと思う。
それは、GoogleのBigQuery。Google Japanの佐藤一憲さんの「毎秒10万件でもまだ軽い!Norikra+BigQuery+Dockerで10分でつくるリアルタイムログ解析基盤」というプレゼンで説明されたものだが、とにかくパフォーマンスがすごい。プレゼン中のデモで、ディスクに収められた5億件のデータをSQLでフルスキャンするのに3秒しかかからない。9億件のデータを正規表現を含んだSQLでスキャンしても、7秒で終わる(これ、記憶がちょっとあいまい。もう少しかかったかも)。これには驚いた。
佐藤さんがGoogleに入社して一番驚いた技術が、一般公開される前のBigQueryだったと言っていたが、その気持ちはわかる。
Google社内では、たとえばGoogle Playのダウンロード数からランキングを作るときなどに使われているそうだ。1分間に数億ダウンロードされるソフトウェアのログを解析して、リアルタイムにランキングを作って表示しているんだとか。
なんでもGoogleで「1TBのデータのスキャンを1秒以内に終わらせるにはどうすればよいのか?」という課題を立てて試行錯誤した結果、5000台のディスクにデータを分散させて並列処理すればよい、という結論に達したので、これを実践して規模を拡大したものがBigQueryなのだとか。アメリカ人らしい、力技の物量作戦に思えるけど、パフォーマンスは見事だ。しかし、Googleのデータセンターにはいったいディスクがどれだけあるんだろうか?
BigQueryは無償で試せるので、興味のある方は使ってみてほしい。
Google BigQuery https://cloud.google.com/products/bigquery/?hl=ja
最後に当日の詳しいレポートをまとめてくれている人のブログ記事をリンクしておく。
0 件のコメント:
コメントを投稿