AI(人工知能)で注目の新技術「Deep Tensor」を用いた高精度学習で、データ分析の高度化を目指す

ビッグデータ分析でよく使われる「グラフ構造」とは?

最近のビッグデータ技術の進歩は目ざましいものがあり、様々な分野でビッグデータは蓄積され続けています。それらの膨大なデータの分析は、どのように行われているかご存知でしょうか?

ビッグデータには、人やモノのつながりを表す「グラフ構造」として表現できるデータが多く存在します。グラフ構造のデータは複雑で、大きさや表現方法などに多様なデータが混在しています。例えば、現在、米国では、携帯電話やタブレット、ノートPC、ゲーム機やTVなど、全部で11億ほどのノード(注1)が、インターネットを介してつながることにより、巨大な「グラフ構造」が出現しています。

従来より、富士通研究所では、「未知の知の獲得」だけではなく、「既存知の構造化」も視野に入れ、LOD(注2)の活用技術の開発など、グラフ構造データの検索や分析に取り組んできた実績があります。

(注1)節、接点、集合点。複数の要素が結びついてできた構造体において、個々の要素を指す。
(注2)Linked Open Data。様々な情報をコンピュータが処理しやすいデータ形式で公開し、データ同士を相互にリンクした、誰でも二次利用できるオープンなデータネットワーク。

従来のディープラーニングを超える独自技術でグラフデータから特徴を自動抽出

このたび富士通研究所は、グラフ構造のデータを高精度に学習する新技術「Deep Tensor(ディープテンソル)」を開発しました。これは、画像や音声で高い認識程度を達成している既存のディープラーニング技術の適用範囲を超えて、グラフ構造のデータに適用できる機械学習技術で、富士通の独自技術です。

グラフ構造を解析する際、高度な数学を活用し、統一的表現に変換することによって、多くの日常的な問題を解くことができます。「テンソル」とは、行列やベクトルなどの概念を一般化した、多次元配列のデータに対する数学的表現の一種です(図1)。グラフ構造のデータは構造が複雑で、大きさや表現方法など多様な表現形式が混在していますが、「テンソル」を用いた統一的な数学的表現により表現することで、ディープラーニングを用いたグラフ構造のデータを高精度に学習できるようになります。

コンピュータ上で医薬品の候補化合物を探索する「バーチャルスクリーニング」に本技術を適用した実験では、従来技術の約100倍となる数10万種規模の化合物の構造と活性の関係を学習することができ、約80%の活性予測精度を達成しました(既存技術に比べ約10%向上)。また、ホスト間の通信関係を表すグラフ構造のデータから不正や攻撃の検知を行う実験では、既存手法に比べて2割以上の誤検知の削減に成功しました。

図1 グラフ構造で表現できるデータとテンソル表現

医薬品、ネットワーク監視、金融...様々な分野への適用が可能に

「Deep Tensor」により、医薬品の薬効や副作用の予測、開発期間やコストの大幅な削減のほか、ネットワーク監視業務の効率化が期待できます。また、不正な金融操作の高精度な検知や、融資可否の精緻な判定など、様々な分野にインパクトを与えることが考えられます。

今後、AI技術の活用がますます広がるかどうかは、グラフ構造のデータをどう扱うかがポイントになります。富士通研究所は、グラフ構造データの分類技術のさらなる高精度化を進め、「Human Centric AI Zinrai(ジンライ)」のコア技術として本技術の2017年度上期中の実用化を目指します。また、ディープラーニング技術の適用拡大を進め、様々な分野において高度なデータ分析を実現していきます。