大規模データの機械学習で、5000万件のデータから数時間で予測モデルを作る技術とは?

膨大なデータを自動的に学習しながら分析・予測

人間は、日常の暮らしの中で様々なことを体験し、それをもとに学習しています。最近では、スマートフォンなどの普及で大量のデータを常時収集できるようになり、大量データを使って機械が傾向や分類を見つける、機械学習という技術の開発が日進月歩で進められています。

この機械学習の研究が進めば、膨大なデータを分析し、様々な予測を立てることも可能になります。例えば、日々の詳細な電力消費量のデータを集め、その膨大なデータから、時期や時間帯による増減パターンを学習し、電力量が増える時期や時間帯を予測。発電量や送電量、蓄電量などをきめ細かくコントロールすることで、エネルギー効率に優れた街づくりに貢献できます。

このような高度な機械学習を実行するには、分析するデータに応じて、精度の高い予測ができる「アルゴリズム」と「動作条件」の組み合わせを探しだす必要があります。これまでは、分析者が経験に基づいて試行錯誤でその組み合わせを探していたため、時間がかかってしまったり、分析者のスキルによって結果が大きく変わってしまったりすることがありました。

必要最小限のデータ量を見極め、時間の無駄を省く

そこで富士通は、短時間で学習できるように、小さなサンプリングデータの学習結果をあらかじめ調べておき、もし大きなデータになったら、「どのくらいの精度で予測できるか(予測精度)」、その予測をするのに「どのくらいの時間がかかるか(実行時間)」を把握できる技術を開発しました。

これにより、少量のサンプルデータであっても、予測精度を損なわない必要最小限のデータ量を見極めることができます。また、予測精度が上がる可能性が高く、短時間に実行が終わる学習の候補を選定して優先的に実行する「自動チューニング」の技術も備えており、見込みのないアルゴリズムをすばやく除外することで、時間の無駄を省くことができます。

従来は1週間近くかかっていたビッグデータを、2時間強で学習し予測モデルを立案

この技術を用いれば、これまでは1週間近くかかっていた5000万件規模のデータの機械学習を2時間強で終わらせるなど、精度の高い予測モデルを短時間で作り出すことができます。これにより、例えば会員数が数十万人にもなる大規模ECサイトで、会員の購買動向を分析して将来の行動を予測、退会しそうな会員を素早く探し出して、特別なサービスを提供する、などの使い方が可能です。

このようにビッグデータの機械学習でデータ量を変えながらアルゴリズムの自動選択やチューニングを自動で行う技術を開発したのは、世界で富士通が初めてです。すでに、3000万件規模のWebアクセスの分析において、この技術の適用が実用的に可能であることも分かっています。機械設備の稼働状況を集計するデータの分析に活用すれば、故障を高精度で予測でき、対応の迅速化など、改善をタイムリーに実現できるでしょう。

富士通は、今後、ビッグデータを活用する「富士通Analyticsソリューション」などで、この技術の実証実験を行い、2015年度中の実用化を目指します。