画像認識技術とは?
この記事では人工知能(AI)による画像認識技術の概要と、ビジネスにおける活用方法について紹介します。目次画像認識とは?画像認識の仕組み画像認識のビジネス活用状況と課題画像認識の活用事例1画像認識の活用事例2画像認識の活用事例3画像認識とは?画像認識とは機械がものを見分ける技術のことを指します。例えば犬と猫、傘と杖など、人間は一見類似した物事を見分けることができますが、機械にもそれが可能です。この機械が「見分ける」際に用いられる技術が画像認識と呼ばれるものです。画像認識は1980年代からある古い技術ですが、2012年を境に注目を浴び始めました。画像認識精度を競う「ILSVRC」という大会において、1位のチームの精度が2位のチームの精度を10%以上も引き離したことがきっかけです。その優勝チームが採用したのが、AIの一種であるディープラーニングによる画像認識技術だったのです。驚異の結果をたたき出した、ディープラーニングによる画像認識の仕組みとは何か?詳しく見ていきましょう。画像認識の仕組み画像認識の仕組みを理解するには、まずコンピューターがどのように画像を見ているか理解することが必要です。コンピューターは、画像を数値の集まりとして認識しています。たとえば図1は、数字「9」の手書き文字がどのようにコンピューターによって処理されているかを図解したものです。図1. 出典:https://www.youtube.com/watch?v=aircAruvnKk図1のような白黒画像の場合、0から1の間の値によって色を表しています。つまり0から1によって決められた色のピクセルを並べることで数字「9」を表現しているのです。図1では28×28=784個のピクセルを用いて「9 」を表しています。カラー画像でも仕組みは変わらず、0から1という値の代わりにRGBと呼ばれる3色(赤、緑、青)を組み合わせた数字の集合体などで画像を表現しています。例えば、紫の場合は(128, 0, 128)という3つの数字を用います。これらの数を無数に集めたのが画像データです。この数値の集合体をコンピューターが認識するためには、機械学習と呼ばれる方法を使います。ここでいう「認識」とは、画像に写っている「もの」の特徴を定義できているということです。機械学習は、前述したように大まかに次の2つに分けることができます。ディープラーニングが主流になる前の手法ディープラーニングを用いた手法「1」と「2」の方法は、いずれもコンピューターに画像を認識させるために、学習データとして蓄積された画像データを使います。ただ従来の「1」の方法では、人間が特徴を定義してあげる必要がありました。例えば図2のように、「3」という数字の特徴は輪郭、図3のように「人間の顔」の場合は目や口などが特徴になります。図2. 出典:人口知能ビジネスの教本図3. 出典:TECHACADEMY magazineこのように、人間が定義してあげた特徴を数値化学習用のデータと新たな画像がどの程度類似しているかを比較するというのが、従来の画像認識のやり方でした。しかしこの方法は、人間が数多くのパターンごとに特徴の定義をしなければならないため、現実的ではありませんでした。例えば、同じ「顔」を認識する場合でも、横や正面、斜め上、斜め下から見た時では目や口などの特徴の見え方が違います。このようにパターンが増えれば増えるほど精度の向上は難しかったのです。一方で「2」の方法では、画像に写る「もの」の特徴をコンピューターに自動で定義させることができます。これを可能にしているのがディープラーニングの技術です(ディープラーニングについて興味のある方はこの記事をご覧ください)。そのため人間が行う作業は画像データの準備のみになりました。具体的なステップは、次のようになります。大量の画像データ(数万枚~数十万枚)を用意し、事前処理(ピクセル数の均一化など)を行う。機械にそれらの画像を読み込ませた後に、ディープラーニングによって画像内にある「もの」の特徴を学習させる。新たな画像データの中にある「もの」を見分けられる機械(学習済みモデルと呼ばれる)が完成。画像認識のビジネス活用分野と課題主流であるディープラーニングを用いた画像認識の強みとして、24時間稼働が可能1度に多くのものを認識できる精度の高さなどが挙げられます。ここでは代表的な画像認識のビジネス活用分野を3つ紹介します。 危険察知の分野画像認識のビジネス活用の代表格とも呼べる分野に、危険察知があります。分かりやすいのが自動車の例です。図4をご覧ください。ドライブレコーダーによって撮られた画像ですが、子どもたちが右から左へ飛び出している様子が見て取れます。自動運転を可能にするには、このような事態に対して車が臨機応変に対応できることが重要でしょう。図4. 出典:http://commonpost.info/?p=137946そのためには:人間が前方にいると認識するその人間による行動を予測する具体的な動作を実施する(ブレーキをかけるなど)というステップが必要です。この中で画像認識の技術が使われるのは、「1.人間が前方にいると認識する」のステップです。他にも自動運転の際に認識できる必要があるものとしては、他の自動車や工事現場のコーンなどの障害物、そして信号の状態などがあるでしょう。さらにこの危険察知は道路上だけにとどまりません。スイミングプールでの監視や工事現場などをはじめ、画像認識の応用先は多岐に渡るといえます。しかし同時にまだまだ課題の山積する分野でもあります。課題は主に3つです。1つ目は、環境(天気や場所など)が変わっても正常に認識ができるのかという技術的問題。2つ目は事故が発生した際に誰が(運転者、自動車、ソフトウェアメーカーなど)責任を負うかなどの法的問題。3つ目はトロッコ問題と呼ばれる倫理的問題。例えば、ブレーキが間に合わない状況で直進すれば壁に激突しドライバーが死んでしまうが、代わりにハンドルをきって歩道に乗り上げればドライバーは助かるものの歩行者が巻き添えになってしまうという選択肢に迫られた際に、AIはどうすべきかなどです。画像認識で様々なことを認識できるからこその問題と言えるでしょう。 顔認証の分野また危険察知の次に注目されている分野として、顔認証があります。顔認証とは、顔の画像データから「この人はAさん、この人はBさん」というように自動で判断させる技術です。学習データとして元々用意している画像データと、新たな画像データを比べることで、同じ顔かどうかを認証しているのです。これにより、セキュリティーチェックや防犯カメラから犯人を探す際などに人手に頼らない効率性を実現できます。また、顔認証を使った決済方法や、顔認証を用いてその人の属性(性別、年齢など)を特定する、といった新たなサービスでも画像認識は使われています。サービスの一例として、属性情報(性・年代)と天候•気温などの情報をもとに「おすすめ」ドリンクを提示してくれる自動販売機があります。この「性・年代情報」を得るために、画像認識によって目鼻の位置やしわを解析しているのです。一方で主な課題として、個人情報の扱いをはじめとする法律上の問題があります。改正個人情報保護法によると、顔写真はたとえ数値化してあっても個人情報と見なされるため、データ提供者に同意を得ることが必要。さらに漏洩や滅失などのトラブルがあった際に速やかに対策を講じるなどの責任が多くあります。また肖像権やプライバシー権などを犯さないための配慮も必要です。実際に肖像権の侵害を訴えた一般人に対し、損害賠償35万円を支払う命令が下った例も存在します(東京地判平成17年9月27日判決)。そのためデータをどのような形で(画像か数値かなど)、どこに(クラウドのようなサービスを利用するなど)、保存するかを深く考えていかなればならないのです。 異常認識の分野最後に画像認識が活用されている分野として、「異常箇所の認識」があります。異常箇所の認識とは、画像データを元に、正常な場合であればあるべきでないもの(異常箇所)を特定してくれる技術のことを指します。これは、正常な場合と異常な場合の画像データを分けてAIに学習させることで、実現を可能にしています。代表的な例は医療分野での活用です。例えば、人間の医師が胃がんを発見する場合、胃カメラなどで撮った「画像データ」と、自身の「経験」「目」をもとに胃がん細胞を発見しています。これを画像認識の技術を用いて機械に認識、そして判断させることで、新人医師の研修や手術医のサポート、そしてロボットによる手術に役立てることが可能なのです。他にも皮膚病変(皮膚ガンや発疹など)を皮膚の状態から、うつ病や認知症などを顔の表情から症状の種類や重症度を算出する試みがあります。ここで考えられる主な課題は、前述した個人情報の問題に加えて、導入への抵抗などがあるでしょう。導入への抵抗は医療という人の命に関わる分野において患者がどこまで「機械化」を受け入れられるかという課題です。例えば、画像認識AIによってサポートがされている手術を患者は受け入れられるか?それがロボットによる手術になった際はどうなのか?これらの抵抗に対して、医師やAIを開発するチーム・会社はきちんと説明責任を果たしていかなければならないのです。特に、ディープラーニングの技術は特徴を機械が見つけることからも分かるように、仕組みがブラックボックス化してしまう傾向があるため、この説明責任はより強くあります。活用事例1:ユニバーサルスタジオジャパンUSJの課題の1つに、年間スタジオパスの転売がありました。これを解決するためにUSJは2007年11月から顔認証システムを導入しています。年間スタジオパスを持っているゲストは、入場の際にカメラに顔を向けるだけで入場をすることができるというものです。ディープラーニングによる精度•速度の向上により、顔認証にかかる時間は1秒まで短縮できたといいます。これによってゲストに「顔パス」で入場するような感覚を提供し、新たな顧客体験の1つとなっています。活用事例2:株式会社カヤックカヤックはウェブコンテンツ制作を中心に業績を上げている会社です。彼らのサービスの1つであるゲームコミュニティーサービスの課題として、ユーザーが快適にゲームコミュニティーで時間を過ごせるよう不適切な投稿画像を排除する、というものがあったといいます。しかし、全体のコンテンツ量が増えるにつれ、人による目視で不適切画像の監視を24時間体制でかつ網羅的に続けるのが難しくなっていきました。そこで導入されたのがディープラーニングを用いた画像認識サービス。従来の人による目視に比べ、より高い検知率99.5%を実現しました。活用事例3:インキュビットでの活用事例弊社インキュビットによる画像認識を用いたサービスの1つに、自動車のタイプや通行量を分析するものがあります。道路上のどこで、どのくらい、どのような自動車(乗用車、トラックなど)が通行しているのかという調査•分析は、従来は人の目で実施していました。インキュビットはAIのディープラーニングを用いたサービスによって、この作業を短縮し、交通計画実施の効率化を可能にしました。図5. インキュビットの交通分析サービス参考文献[1] ディープラーニングが切り拓く画像認識ビジネスの可能性. 人工知能ビジネスの教本. 2017年5月. p.124-144.[2] ディープラーニングの仕組み. グーグルに学ぶディープラーニング. 2017年3月. p.88-102.[3] 山下隆義. イラストで学ぶディープラーニング. 2016年6月. 207p.[4] 株式会社カヤック. 「AI×人による業務効率化を実施。時間や運用コストの削減に加え、ユーザー満足度もアップ」 2018年11月13日アクセス.