人工知能の能力が人間を超えた!? 世界初、中国語の手書き文字認識率で96.7%を達成

中国語の手書き文字認識コンテストで第1位

現在、スマートフォンの文字入力などで、コンピュータによる手書き文字の認識が広く使われています。一般に、人間は文字、画像や音声といったメディアは簡単に認識できますが、バリエーションの多さや、類似した対象物が存在することからコンピュータによる識別は難しいことが多く、人工知能の研究課題の一つになっています。

富士通研究開発中心有限公司(FRDC)と富士通研究所は、文字認識の分野において数十年以上の経験を持っています。2010年より深層学習(Deep Learning)に基づく人工知能による文字認識の研究を開始し、2013年には、開発した人工知能による文字認識技術が、文書画像処理分野でトップレベルの国際会議主催の手書き文字(中国語)認識コンテストで1位(認識率94.8%)を獲得するなど、業界トップの精度を実現してきました。

文字認識技術では、人間が認識する時に使われるとされる多数の文字パターンの特徴を学習して記憶します。認識精度をさらに高めるためには、文字の変形の多様性を学習するための新たな仕組みが必要です。

そこで今回、FRDCと富士通研究所は、人間の脳の働きを模した人工知能技術を活用し、学会で提唱された人間の識別能力相当の認識率を超える96.7%の手書き文字認識技術を世界で初めて開発しました。

従来、人間が行っていたコンピュータへの入力業務や確認作業が自動化

図1 文字認識の過程における各神経細胞間で学習された特徴の可視化

図2 三次元ランダム変形に基づく学習文字サンプル生成

当技術は、想定する階層モデルの神経細胞間をつなぐ結線の数を50倍以上に拡大し、学習する文字の変形パターンを多種多様に自動生成するものです。文字認識の過程で利用する階層モデルの神経細胞間をつなぐ結線に対し、きめ細かく変形を学習できるように結線の数を、従来技術(認識率94.8%)の約280万から約1億5千万まで増やすことで、認識精度を高めました。

認識対象となる中国語の文字は約3,800種類あるため、各文字のパターン収集はとても困難ですが、様々な学習文字サンプルを自動生成する技術の開発により、多種多様な変形文字パターンを階層的モデルに学習させることが可能になりました。

当技術により、従来人間が行っていたコンピュータへの入力業務や確認作業の自動化が期待できるとともに、数字、アルファベット、日本語など多言語の文字認識への適用の検討が可能になります。

今後、FRDCと富士通研究所は、文字認識技術のさらなる高度化と、画像や音声といった文字以外のメディア認識への適用拡大を進め、2015年度中の実用化を目指します。