株式会社オリエンタルアーツ｜WCS｜物流システム

ビッグデータとは

近年、高速なインターネット回線の普及や各種センサー技術の進展などで、企業や社会インフラにおけるデータが爆発的に増大しており、大量データを短時間/リアルタイムに処理することで新しい価値が生まれます。
ビックデータが話題になる理由には、単にデータの量と種類が増えただけでなく、そこから抽出した情報の質と、それに基づく予測の精度が飛躍的に向上したことが大きな理由の一つです。
実際、こうした情報のビジネスへの適用可能性やその機会が広がっており、成功事例を耳にすることも多いと思います。
それに習い、ビックデータからの情報抽出とそのビジネス適用への期待が高まります。

弊社のビッグデータに対する取り組み

私たちはJavaを主体とした各種オープンソースやツール、ライブラリ、フレームワーク、開発技法を駆使し、常にお客様に満足していただけるサービスをご提供してきました。
その一環としてお客様が保有している各種ビッグデータを解析し、お客様のお役に立つ情報の取得、ビッグデータの可視化などのサービスを行っています。

データ解析には解析対象から得られる結果の仮説を構築する作業が必要となることもあります。
弊社ではそれらの解析のための仮説の構築、仮説検証のための方法の考案、仮説検証作業の技術的作業、解析を行う環境のご提案及び構築なども行っています。

Hadoopとは

弊社ではビッグデータの解析には主に大規模データの分散処理用のフレームワークであるHadoopやRedshiftを使用します。
Hadoopを使用することにより大量のデータを複数のコンピュータに効率よく分散し、同時に処理を行わせることにより、多量のデータにもかかわらず短時間で集計、整形、分類、解析などの結果を得ることが可能となります。
ただし、解析を行わせるには複数のコンピュータを必要とします。
そのため多量のコンピュータを購入する初期費用や、それらの保守、運用する費用がかかります。
しかし、Amazon EMRなどのクラウドサービスを使用することにより、処理に必要な時間だけ一時的に多量のコンピュータを使用することができ、低コストでビッグデータの解析を行うことが可能です。
弊社ではAmazon EMRをはじめ、その他のクラウドサービスを使用した低コストでの解析処理のサポートも行っておりますのでお気軽にご相談ください。

Hadoopは開発言語の「Java」でMapReduceのロジックを記述する必要があります。
MapReduceは、map() と reduce() という二つの関数の組み合わせを定義するだけで、大規模データに対する様々な計算問題を解決します。

しかし、普段Javaを利用していない開発者の方にとってはやや敷居が高く感じられるかもしれません。
この難易度を下げるハイレベル言語として「Hive」「Pig」が存在します。
どちらの言語もSQLやストアドプロシージャのようなコードを書いて、MapReduceを動かせます。
対話型のシェルユーティリティもあり、簡単にMapReduceを動かせる点も魅力的です。
弊社では解析ロジックの作成において、比較的簡易なHive、Pigを使用しますが、よりきめ細かな処理が必要なときはJavaを用いて記述します。

構造化されていない文章などの解析にはテキストマイニング手法を用いる必要があります。
弊社では独自のテキストマイニングエンジンを用意し、フリーフォーマットの文章解析にも柔軟に対応いたします。

また、Hadoopから出力される情報はテキストベースの情報なので直感的に把握しにくい場合が多々あります。
それらの情報をわかりやすくイメージで表現するための、カスタマイズ可能な可視化フレームワークも用意しています。

ビッグデータ

CarInfo