今注目の「ビッグデータ」について - エム・システムのブログ

近頃、「ビッグデータ」と言う言葉を良く聞くようになったと思いますが、皆さん、その意味するところを理解していますか?

今回は、その「ビッグデータ」の内容と、なぜ、今注目されるようになったのかについて説明しようと思います。

「ビッグデータ」とは、Twitter、Facebookに代表されるSNS(ソーシャル・ネットワーキング・サービス)に投稿される文章や画像や動画、携帯電話や携帯端末の通話記録、GPSデータ、ネットショッピングの購買記録、メールの内容、さらに道路の渋滞状況・・・私達の身の回りに氾濫している膨大なデータの事を「ビッグデータ」と呼んでいます。

どの程度の大量データを「ビッグデータ」と呼ぶのかについてですが・・・これについては、まだ厳格な定義はないのですが、通常は数百テラバイトからぺタバイト級のデータを「ビッグデータ」と呼んでいるようです。

ちなみに、データの量に関する表記に関してですが、一般的な表現では、下記のようになります。

キロバイト(KB)　　　：　1,000バイト (千)
メガバイト(MB)　　　：　1,000,000バイト(百万)
ギガバイト(GB)　　　：　1,000,000,000バイト(十億)
テラバイト(TB)　　　：　1,000,000,000,000バイト(一兆)
ぺタバイト(PB)　　　：　1,000,000,000,000,000バイト(千兆)
エクサバイト(EB)　　：　1,000,000,000,000,000,000バイト(百京)
ゼタバイト(ZB)　　　：　1,000,000,000,000,000,000,000バイト(十垓：ガイ)

1ぺタバイト(PB)、つまり1,000兆バイトと言われてもピンと来ないかもしれませんが、通常日本語1文字に付き2バイト必要ですから、1,000兆バイトだと500兆個の文字分のデータと言うことになります。

これではピンとは来ないですよね。

別の例で表現しますと、デジカメで普通の解像度で写真を撮ると1枚当たり約5MB位ですから、データ容量1PBだと2億枚の写真です・・・これでもダメですね。

さらに、データ量は2年毎に倍増していると言う計算結果もあり、去年1年間では、既に1.8垓を超えている、と言う報告もあります。このデータ量の場合、しつこい様ですが、DVD換算だと3,800億枚位になります。

このように膨大な量のデータですが、これら莫大なデータの中には、企業にとって「喉から手が出る」ほど欲しいデータが埋まっています。

例えば、ネットショッピングの購買記録、これには顧客の好みが反映された情報が埋まっていますので、データを正しく分析すれば、マーケット分析を行うことが可能になります。

事実、Amazonなどで「お薦め商品」を表示する機能がありますが、この機能は「レコメンド技術」と言い、「ビッグデータ」を活用した技術になっています。

また、VISAカード等では、カードの不正利用パターンを分析し、カードの利用履歴から不正利用を検知する仕組みを取り入れています。

さらに、SNSに書かれている自社製品のコメントを分析し、次期商品開発に取り入れている企業も存在します。

このように企業にとって「ビッグデータ」は、まさに「宝の山」のような存在になりつつあります。

従来、コンピュータによるデータ分析の手法としては、「BI(ビジネス・インテリジェンス)機能」や「DWH(データウェア・ハウス)機能」と言う技術が存在しており、現実世界では15〜20年位前から実用化されていました。

しかし、従来の「BI機能」や「DWH機能」は、固定形式(固定フォーマット)のデータから、必要な情報をデータベースに取り込み、それを後で分析して結果を導き出す、と言う手法/技術でした。

ところが、「ビッグデータ」に関しては、データ自体が可変データ(※1)となっていますし、さらにリアルタイム処理(※2)が求められますので、従来の手法/技術では対応できない状況になってしまいました。

しかし、問題となるのは、データのリアルタイムの分析処理です。データ分析とは、コンピュータの処理の中でも、一番時間が掛る処理です。

ホストコンピュータが主流だった時代(私が、ゴリゴリとコーディングしていた時代)などは、数メガバイトのデータ分析を、一晩掛けて処理していました。

時代が進み、PCの性能が向上し、一般家庭にPCが普及した頃でも、大量データ分析には数時間掛るのは当たり前でした。

しかし現在では、複数のコンピュータを連結し、データを並列処理する技術が確立しましたので、リアルタイム処理も実現可能となりました。

少し前に話題になった理化学研究所と富士通が開発した世界最速コンピュータ「京」も、800台以上のコンピュータをネットワークで接続し、並列処理が行えるようにしたものです。

ちなみに「京」では、公表データによると、1秒間に8,126兆回分の計算が可能となっていますので、単純に言い換えると前述の「1PB(ぺタバイト)」のデータ(千兆バイト)が、全て日本語のデータとして、500兆個の文字があるとすると、その中から、ある特定文字を抽出するのに0.1秒も掛らない事になります。（厳密にはもう少し時間が掛ると思いますが）

さらにデータの処理に関しては、「データストリーム処理」と言うソフトウェア技術の確立も大きく貢献しています。

従来のコンピュータの処理では、入力したデータは、一時的に「メモリ」と呼ばれる領域に保存され、それからハードディスクドライブ(HDD)に書き込み、計算の際には、再度「メモリ」経由でHDDからデータを読み込んで処理を行っていました。

しかし「データストリーム処理」では、入力データを「メモリ」に保存した状態で処理を行う事から、処理速度が格段にスピードアップしました。

コンピュータのリアルタイム処理に関しては、コンピュータの性能向上、ソフトウェア技術の進歩、および並列処理の実現で解決できましたが、次に問題となるのは、可変データの分析です。

固定データ(構造化データ)の場合、コンピュータで比較チェックを行う場所が決まっていましたので、例えば「A」と言う種類のデータの場合、「X」と言う場所の値を処理する、と言う感じだったので、比較的簡単な処理で対応可能でした。

もともとコンピュータとは、その始まりは、大砲の弾道計算を行うことを目的として作成された事からも明らかな様に、決まった形式のデータを入力して、決まった処理を、迅速に、かつ正確に行うことを目的として作成された機械です。

このため、可変データ(非構造化データ)を取り扱うのは、もっとも苦手としている処理だと言えます。

ところが、近年「Hadoop(ハドゥ―プ)」と言う技術が確立し、非構造化データに対しても、シンプルな構造で管理することができるようになりました。

このように、大量、かつ非構造化データの処理を阻害していた数々の問題が解決されたことで、「ビッグデータ」が注目されるようになりました。

「風が吹けば桶屋が儲かる(※3)」と言う諺があります。これは、ある事象の発生により、一見すると全く関係の無いような思わぬ場所や物事に対して影響が出ることの例えですが、今後企業が「ビッグデータ」の解析に力を入れることで、風が吹いた後の事象の推理だけでなく、風が吹く要因についても、全世界的に様々な推論が展開される事になると思われます。

例えば、日本の裏側にあるブラジルのアマゾンで「100匹の蝶がはばたく」と、その風が太平洋上で貿易風に影響を与えて日本で強風を巻き起こし、最終的に桶屋に利益をもたらす、とか・・・まあ今の日本で、桶の専門店は存在しませんし、同じ「風が吹けば」なら、ブラジルよりもお隣の中国の「黄砂が吹けば〜」の方が影響が大きいかもしれませんが・・・

今後も「ビッグデータ」の動向について調査を行い、機会があれば、皆さんに紹介したいと思います。

以上

※1可変データ：固定形式データとは異なり、長さや値の格納場所がバラバラなデータ
※2リアルタイム処理：後で処理を行うのではなく、その場で直ちに処理を行う事
※3風が吹けば桶屋が儲かる：次の論理に基づいて導き出される推論
(1)大風が吹くと、大量の「ほこり」が舞う
(2)「ほこり」が舞うと、目に「ほこり」が入り盲人が増える
(3)盲人が増えると、三味線が売れる(当時、三味線引きは盲人が就く職業)
(4)三味線が売れると、ネコが減る(三味線にネコの皮を使うから)
(5)ネコが減ると、ネズミが増える
(6)ネズミは、桶をかじる
(7)故に、ネズミが増えると、桶屋が儲かる