ディープラーニングとは

目次

ディープラーニングとは?

ディープラーニング(深層学習)とは、機械学習の一種です。大量のデータを使ってコンピューターを学習させることで、物事の特徴やパターンを抽出し、特定の判断や予測に役立てることができる技術になります。

たとえば大量の手書き文字を読み込ませ学習させることで、自動で手書き文字を認識できるシステムを作る、猫の画像をもとに学習させたコンピューターによって画像内の猫を自動で識別する、といったことがディープラーニングによって可能になります。

コンピューターの性能の向上や、学習の元となるビッグデータ技術の普及といった様々な要因により、2010年代に入ってから実用化が進んだ技術です。IBMのワトソンが米人気クイズ番組「ジェパディ!」にチャレンジしたことや、ディープラーニングを用いて開発されたコンピューター囲碁プログラム「AlphaGo」(アルファゴ)が、2015年にプロの囲碁棋士を破ったことなどをきっかけに、一気に世間の注目を集めました。

「大量のデータから特徴やパターンを抽出し、何らかの判断や予測に役立てることができる」という汎用性が高い技術のため、あらゆる分野で活用され得る可能性を秘めています。またコンピューターを学習させるためのデータの種類も、画像やテキスト、音声、数値と多岐に渡るため、活用の幅も広いと言えるでしょう。

一方ビジネスで適切に使いこなすには、基本的な知識を抑えておくことも重要です。この記事では、「ディープラーニングとは」を解説していきます。

人工知能と機械学習、ディープラーニングの違い[1]

AIについて触れるメディアでは、「人工知能」と「機械学習」「ディープラーニング」という似て非なる用語が飛び交っているため、混乱してしまう方も少なくないでしょう。

3つの関係性について、大まかな関係性は以下の図1のようになります。

図1 人工知能、機械学習、ディープラーニングの関係性

 

まず人工知能とは学習や推定、判断といった人間の知能的活動をコンピューターによって再現するための技術です。

機械学習はこの人工知能の一種になります。機械学習では、特定の物事に関する大量のデータをコンピューターに読み込ませることで、裏側に潜むパターンを学習させます。そして学習済みの機械学習モデルにデータを入力すると、それに対して何らかの推定や判断を実施して結果を出力するのです。

ディープラーニングは機械学習の一種です。機械学習の場合は、学習の起点となる何らかの特徴を人間が定義してあげる必要がありますが、ディープラーニングはそれを自動的に見つけることができる、という点が大きな違いです。

これにより一般的に人間では気付かないような特徴を発見し、推定や判断を行えるので、より精度が高くなると考えられています。しかし、その認識する仕組みはブラックボックスとなっているため、どのように認識しているか知ることはできません。また必ずしもディープラーニングを用いれば精度が高くなるとも限りません。

ディープラーニングの仕組み[2][3][4]

ディープラーニングの仕組みを知るためには、まず機械学習に用いられるアルゴリズムの一種であるニューラルネットワークについて理解しなくてはなりません。ディープラーニングを含む機械学習の根本的な概念になるからです。

ニューラルネットワークとは人間の脳のシステムを模したコンピュータシステムを指します。人間の脳にはニューロンと呼ばれる神経細胞が何億も存在します。これらのニューロンは、脳に入力された信号を処理して、何らかの情報を出力する役割を互いに連携しながら担っています。

このようなニューロンが多く集まった多階層構造がニューラルネットワークになります。

ニューラルネットワークの層は主に、

 

・入力層(データ・信号が入力される層)、

・隠れ層(入力されたデータの特徴を重要度に応じて重みづけし、計算・処理する層)、

・出力層(処理されたデータを出力する層)

 

の3層で構成されています。

図2 ニューラルネットワークの例。入力層(黄色)、隠れ層(青)、出力層(赤)で構成されている。[5]

 

このうち隠れ層は、入力されたデータの特徴を抽出できるように、複数の層で構成されています。

そして特に深い層を持ったモデルに用いた手法がディープラーニングです。またニューラルネットワークの中でも、ディープラーニングで用いられるタイプをディープニューラルネットワークと呼びます。

隠れ層の階層が従来のモデルよりも深いため、より細かく特徴を抽出し、精度の高いモデルを作ることができるのです。一方で計算量が増えるので、処理時間も増えてしまうというデメリットもあります。

またディープラーニングにも複数のアルゴリズムが存在し、用途に応じて使い分けることになります。ベーシックなアルゴリズムを2つご紹介します。

そのうちの一つ、畳み込みニューラルネットワーク(Convolutional Neural Network, CNN)は、画像に強いとされています。

畳み込み(Convolutional)とは、ある関数を元の関数に対して平行移動させながら重ね、足し合わせることを意味します。画像の場合、元の画像に対して小さなフィルターをずらしながら見ていき、それぞれの特徴を順番に抽出していきます。

もう一つは、再帰型ニューラルネットワーク(Recurrent Neural Network、RNN)。これは主に時系列データのような、連続性のあるデータに対して用いられます。応用分野としては自然言語処理などがあげられます。

ここで具体例を使ってディープラーニングの仕組みを説明します。

例えば多くの自動車の中から、特定の車種を自動で判別できるシステムをディープラーニングによって作るとします。ディープラーニングのアルゴリズムは、画像認識に強いCNNを用います。

まずは、学習データの用意です。

この例の場合、自動車会社の車種ごとに大量の画像を集め、それぞれの画像に車種を表すラベルを付けます。

この学習用のデータをディープラーニングモデルに与えると、様々な特徴を自動で抽出し、学習することができます。この学習作業は、作成したモデルが必要とする精度で車種を推定できるようになるまで行います。こうしてモデルが完成すれば、あとは実用フェーズとなります。

図3 ディープラーニングを用いた車種の推定

 

 

ディープラーニングのビジネス活用状況と課題

ビジネスのどの分野においても、ディープラーニングの活用はまだ始まったばかりと言えるでしょう。そのため実用に向けた課題も多くあります。

例えば機械学習・ディープラーニングを使いこなすには、関連するデータが重要になってきます。しかしこれまでデータを記録していなかったり、記録していても紙媒体でしか残っていなかったりといった問題に直面している企業も少なくありません。

そのため実際に使えるデータの収集・整理から始まるケースが多いというのが現状でしょう。ビジネスでのディープラーニング活用の起点になるデータ。その種類ごとに概要と弊社事例を紹介します。

画僧データの概要と事例

先程の車種推定の例のように、物事のビジュアルをもとに分類や判別を行う場合では画像データが用いられます。

ちなみに画像データとは、主にカメラで撮影された写真だけでなく、動画データも該当します。

インターネットの普及により、画像データが非常に収集しやすくなっていることもあり、最も発展している分野になります。

弊社が手掛けた事例として、ディープラーニングによって農作業の効率化を図った施策をご紹介します。

本事例はトマトの実・蔕(へた)・枝・幹を自動で認識できる技術です。カメラで撮影した画像を元に、リアルタイムで判別できます。

この技術をベースに、自動収穫ロボットや、実の熟度や腐植土の測定などへの応用が可能となります。現在は自動収穫ロボット導入に向けて進めているところです。

数値データの概要と事例

画像データと同じく、数値データも大量に存在し、取得が容易であることから、比較的発展している分野です。

主に物事が起こる確率や数値の動きに関する予測に用いられることが多く、例として病気の発症率や株価の予測等があります。

実践する上でのよくある問題として、数値データが正しく記録されていない、数値以外のデータも混ざっている、といった事情により、ディープラーニングに適さないデータしかない、というケースもあります。

そのため目的に応じて、数値データを適切に収集・記録していくことが重要です。

弊社では製造業のクライアント向けに、製品の品質予測を行うモデルを開発しました。リアルタイムで製造工程のデータを収集し、不良品ができそうだと事前に予測できれば、何等かの方法でアラームし、未然に防ぐことが可能になるのです。学習データとして、製造工程の機械の温度やモーターの速さ、その時の条件でできた製品の品質データをモデルに与えました。

テキストデータの概要と事例

テキストデータの活用は、近年のSNSの爆発的な普及によって注目され始めているジャンルです。

製品やサービスに関するSNS上の口コミを分析することによって、品質や施策の改善につなげるといった例が目立ちます。

テキストデータを使ったディープラーニングでは、言葉そのものだけでなく周辺の文脈も考慮して、正確に意味を把握することが精度向上のカギを握ります。

弊社では、テキストデータを元に、医療向けのディープラーニングモデルを手がけました。

このモデルは、SNSなどのチャット対話の履歴を分析することで、投稿者の症状を判別できるというものです。あらかじめモデルには、投稿内のテキストや前後の文脈をもとに症状を判断できるように学習させます。最終的には、その症状に合った専門医をレコメンドするというシステムです。

音声データの概要と事例

最後に音声データの紹介になります。

音声認識の技術は主に次の2段階に分かれています。

 

・音声を認識しテキストに変換する段階

・変換されたテキストの内容を理解する段階

 

そのため、テキストデータの延長線上にある技術とも言えます。

音声の意味を判別するには、方言やアクセントなどの考慮をする必要があるほか、省略語や本来の意味とは違った使い方をされる言葉も認識できる必要があるなど、精度の向上が非常に難しい分野です。

現状の実用化範囲も、音声検索のように、比較的短い言葉が中心となるシーンに限られます。

例えば「ヘイ、シリ! 今日の天気。」は基本的に間違うことはないが、「ヘイ、シリ!明日の東京都渋谷区○○X丁目Y番地Zの何月何日の天気を教えて」と長くなれば精度は落ちてしまうでしょう。

弊社が手掛けた施策として、コールセンターにおける活用例があります。電話をかけてきたお客様の音声を認識し、その質問に応じた適切な返答を、コールセンター職員のパソコンに表示するというシステムです。そのコールセンターの課題であった、職員の経験の差による対応レベルの違いを解消することに成功しました。

 

これらの事例をを詳しく見る。

 

参考文献

[1] 「ディープラーニング(Deep Learning)とは?【入門編】」, LEAPMIND BLOG, 2017年6月16日

http://leapmind.io/blog/2017/06/16/ディープラーニング(deep-learning)とは?【入門編】/

[2] 「AI(人工知能)とは?誰でも簡単にわかるディープラーニングの仕組み」,

AI研究所, 2018年1月24日

【2024】AI(人工知能)とは?活用事例やメリット・AIの作り方を解説

[3] 「深層学習(ディープラーニング)を素人向けに解説(前編)- 基礎となるニューラルネットワークについて」, Stone Washer’s Journal, 2015年3月5日

深層学習(ディープラーニング)を素人向けに解説(前編)―基礎となるニューラルネットワークについて

[4] 「ニューラルネットワークの基礎を初心者向けに解説してみる」, ロボット・IT雑食日記, 2018年6月20日

https://www.yukisako.xyz/entry/neural-network

[5] edit image

http://editimage.club/rapic.html

 

 

Other blog

次のAIは常識を理解できるようになる、アメリカの軍事研究機関が予測

人工知能(AI)のテクノロジーは、現在の「第2の波」から「第3の波」へと移りつつある。アメリカで軍事目的の新技術を開発・研究する機関、アメリカ国防高等研究計画局(DARPA)がこんな予測を明らかにしました。まず「第1の波」とは、人間がAIに知識を細かく教え込む段階。また次の第2の波は、学習データを使って統計的に示唆を出すという、現在主流のAI手法です。しかし第2の波のシステムによって分かることは、単に膨大な学習データを統計的に処理した結果であり、物事を理解しているわけではありません。だからデータの質によっては、人間ではありえないような間違った判断を下してしまう場合もあります。一方で今後主流になるという第3の波では、同じく学習データを処理する中で、その根底にある常識やルールを「理解」することが可能になるといいます。そのため、ほんの少しのデータだけでも学習が可能になる領域も出てくるそう。今回の元ネタは、DARPAが公開したこちらの動画。話し手は、同機関のJohn Launchbury氏という人物。15分ほどの動画ですが、面白かったのでゴリゴリ翻訳してみました。ちょっと全部訳すと長いので、第2の波の課題とは何か?第3の波によってどう解決できるのか?といった部分に絞って翻訳(5:00~)。そもそも第2の波の仕組みとは?第2の波のシステムでできることはとても限られています。一つの物事を抽象化した上で知見を引き出し、別の物事に応用するということはできません。データの分類から始まり、その後の帰結を予測することはできるかもしれません。しかし物事の文脈を理解する能力はないのです。また物事を判断する能力も欠けています。第2の波のシステムは何ができて、何ができないのか?この点については、もう少し深堀りする価値があるでしょう。そのためには、ちょっとした数学的な説明が役に立ちます。多様体仮説(manifold hypothesis)と呼ばれる考え方があります。多様体とは、幾何学における構造体です。多様体は、様々なデータがグルーピングされて一つの集合体となっている状態を指します。私たちが自然界で起きる現象を分析しようとする時、データはこうした集合体の形をとっています。一つ例をご紹介しましょう。ここに回転している球体があります。これは自然界から収集したデータを3次元で表したものです。異なる様々なデータが一つに集まっています。あるものは糸状の形をしており、あるものはけば立ったスポンジのような形をしています。また中心のほうには、赤いオレンジの皮のような形をした2次元の物体が、表面上に張り付いています。こうしたそれぞれの多様体、つまりそれぞれの集合体は異なる現象をあらわしています。AIシステムが物事を理解するには、これらを識別して分離する必要があるのです。第1の波のシステムでは、この分離作業は難しいでしょう。たとえば「左上にある何々の形をした集合体」といった指示では正確に識別できません。そのため第2の波では、異なる方法で分離させる必要があります。何をするかというと、空間そのものをいじることで、データの集合体を伸ばしたり圧縮したりするのです。こちらが一例です。話を単純にするために、2次元であらわしました。青と赤の曲線があります。それぞれの曲線は、異なる多様体をあらわしています。空間そのものをいじり、これらを圧縮したり伸ばしたりすることで、2つの多様体をきれいに分離させることができるのです。これが、第2の波でできることです。第2の波、実態は強力な統計処理皆さんも聞いたことがあるかもしれないニューラルネットワークは、まさにこの伸縮と圧縮をするよう設計されています。ニューラルネットワークによる働きは、とても神秘的で複雑にみえるかもしれません。しかし一つ秘密を明かすと、それはあくまで単なる強力なスプレッドシートに過ぎないということです。ここに幾重にも重なっているレイヤーがあります。それぞれのレイヤーにて、データの計算を実施します。最初のレイヤーから計算を始め、20番目のレイヤーまで順々に計算を実施するとしましょう。最後のレイヤーでの計算が終わると、異なる多様体の分離が完了するイメージです。それぞれのレイヤーでの計算によって、データがある空間を伸ばしたりつぶしたりしながら、分離を進めていくのです。もちろん実際の作業は、さらに複雑です。高いスキルや膨大な手間がかかります。こうした計算の末に、明らかに間違っている回答が出ることもあります。その場合は、正しい回答を導き出すために、データを少しずつ調整していきます。そうした作業を様々なデータ群に対して5万回から10万回も実施します。そうして回を重ねるにつれ、パラメーターの精度が少しずつ良くなっていき、多様体の分離作業、つまりたとえば息子の顔から私の顔を分けるといった作業をより正確に実施できるようになるのです。第1と第2の波、すでにDARPAも実用化このように、この技術は仕組みがシンプルですが非常に強力です。DARPAでもよく活用されています。たとえばネットワーク上でのサイバー攻撃の状況を把握するために、ネットワークの流れをリアルタイムかつ広範囲で監視するのに使います。またWi-FiやBluetooth、GPSといったものの電波干渉を解消するためにも使っています。電話が数多くある空間の中で、いかに個々の端末の性能を最大限にしつつ、干渉を避けるかという用途です。さらに第1と第2の波によるテクノロジーの両方を活用したプラットフォームを開発しました。防衛ミッションの常識をくつがえすほどのインパクトを持っています。たとえば新型の船。人間による操縦がなくても、目的地へ向けて数カ月の間自動で航行できます。他の船舶による動きを把握することも可能です。このようにAIテクノロジーは、非常に強力であり、防衛の世界でも大きな変化を起こしています。第2の波の課題ただ第2の波には課題もあります。完璧な技術ではないのです。たとえばここに1枚の写真があります。キャプションには「野球のバットを握っている若い男の子」とあります。実際の人間であれば、このような言い回しはしないでしょう。第2の波のシステムは、膨大な試行錯誤の末にこうした変なアウトプットを出したりするのです。確かに統計的な素晴らしい処理をしているのかもしれませんが、単体での信頼性は低いといえるでしょう。もう一つ例があります。左側にパンダの写真があります。そして画像認識システムも正しく「パンダ」だと認識できている状態です。ここでエンジニアが画像から特定のデータパターンを抽出して、スプレッドシート上で歪みを加えます。その結果、出来た画像が右側です。人間の目には全く変わらないようにみえます。しかし画像認識システムは、「99%の確率でパンダではなく、テナガザルだ」と判定してしまいました。また時間がたつにつれ分かってきた課題もあります。マイクロソフトが開発した学習型人工知能ボット「Tay」が一例でしょう。リリースから24時間で緊急停止する事態に陥ってしまいました。当初の目的はTwitter上でユーザーたちと会話をすることでした。しかしTayは教えられたことを学習する能力が高かったばっかりに、故意に差別的な言葉を教え込むユーザーがあらわれました。その結果、Tayは差別発言を連発するようになってしまったのです。こちらの画像は、私が見つけたツイートの中でも比較的マシなものです(「ヒトラーは間違っていない!」)。このように学習し続けるシステムがある場合、元になるデータには非常に気をつける必要があることが浮き彫りになりました。場合によっては悪意ある使われ方をすることもあるのです。これが第2の波の課題です。次の第3の波でできることとは?こうしたAIの課題は、現状のようにスプレッドシートで実施するようなシンプルな計算手法を見直す必要があることを意味しています。ここで第3の波のテクノロジーが求められてくるわけです。この第3の波は、文脈理解が中心になってくるでしょう。そもそもこの世界では、現実世界を解釈するための説明モデルをシステムそのものが時間をかけて作り上げてきました。いくつか例をご紹介したいと思います。まずは膨大な計算を主とする第2の波が、画像を分類するとしましょう。猫の画像を与えれば、システムはそれが猫だと判別するでしょう。もしこのシステムが話せるとしたら、「なぜ猫だと思うんだい?」という問いにこう答えるはずです。「計算をした結果、猫である確率が最も高いと判定されました」と。これでは十分な答えとはいえません。願わくば、「耳があって、前足があって、表面に毛がはえていて、他にも色々な特徴があるからですよ」くらいの回答は欲しいところです。そのためには物事を理解したり、決断の要因を認識したりする能力をシステムに持たせる必要があります。ただ話はこれだけにとどまりません。膨大な学習データが必要ない場合も第2の波の特徴の一つとして、物事を学習するために膨大な量のデータを要するという点があります。たとえば手書き文字を認識できるようにさせるためには5万個、場合によっては10万個もの例が必要になるでしょう。もし私が自分の子供に文字を覚えさせるために、10万個も教えないといけないとしたらうんざりです。しかし実際には1個か2個で十分でしょう。人間による学習方法はそもそも異なるからです。われわれは、同じように1個か2個の例だけで学習できるシステムの可能性を模索し始めています。手書き文字の認識がその一つです。それは次のようなやり方で可能になると考えています。まず文字を書いている手の動きを認識できるモデルを作ります。次に「この手の動きの場合は”0”、こういう場合は”1”、またこんな場合は”2”だよ」という紐づけを実施します。そして仮に、この文字を認識しろという課題が出たとしましょう。その場合、様々なモデルを参照します。つまりすでに学習した「4」というモデルと、お題の文字がどれだけ似ているのか?「9」というモデルとはどれだけ似ているのか?という具合です。その結果、どちらが正しいのかを決めることができるのです。AIの第3の波は物事の背後にあるルールの理解が中心になると、われわれは考えています。このモデルは、ルールや常識を学び取った上で、現実世界を認識することができます。物事を判断した上で、自ら決定を下すことも可能になるでしょう。さらにデータから得たことを抽象化することもできるようになるはずです。ただしこうしたシステムを作り上げるには、まだやらなくてはならないことが数多くあります。ここで最後のまとめです。DARPAとしては、AIを3つの波に分けて考えています。第1の波では、人間がシステムに知識を教え込む段階。まだまだ非常に重要な手法です。第2の波は膨大なデータによって統計的に学習するやり方。現在のメインストリームの手法です。しかしこれら2つのシステムには問題もあります。両方の良さを合わせる必要があります。またルールや常識の学習が可能になる第3の波がやってくるはずです。

自動運転にも応用される精緻な画像認識技術、「画像セグメンテーション」とは?事例を交えてわかりやすく解説

近年、ディープラーニング(深層学習)を中心とした機械学習の技術が注目を集めています。そのホットな応用先の1つが画像認識です。今回は「画像×機械学習」によって、精緻な画像識別を可能にする技術、”画像セグメンテーション”について見ていきましょう。画像分類の種類について「画像×機械学習」といってもその応用例はたくさんあります。画像セグメンテーションの特徴を理解するためにも、まずはよく使われているその他の画像分類技術も見ていきましょう。今回は画像セグメンテーションを含む、こちらの3つを紹介します。1)画像分類(classification)…”その画像が何なのか”を識別2)画像検出(detection)…”その画像のどこに何があるのか”を識別3)画像セグメンテーション(segmentation)…”その画像領域の意味”を識別1)画像分類(classiification)…”その画像が何なのか”を識別画像分類では、”その画像が何なのか”カテゴリ分けします。例えば、様々な寿司ネタの書かれた画像を「これはサーモン、これはいくら、これはとろ、、、」というように一枚一枚分類していく感じになります。最近AmazonからリリースされたAmazon RekognitionのObject and scene detectionもこの画像分類にあたりますね。こちらの画像では、対象の画像がCityやDowntown、Metropolisであると分類されています。この方法では1枚の画像が1つの物体等を映し出していた場合には有効ですが、複数の対象が写っていた場合、それぞれを認識することはできません。例えば、今机にある複数の物体を写真に撮ってRekognitionにアップロードしてみます。本来であれば「カップとスマホとボトル」が写っているのですが、Amazon Rekognitionでは画像全体へのラベル付けとしてCupやCoffee Cupが上位に来ています。これでは、複数の物体が画像に入り込むシーンでは使えないですね。そういった場合には「画像検出(detection)」を活用することになります。2)画像検出(detection)…”その画像のどこに何があるのか”を識別detectionと呼ばれる画像検出では、“何があるのか”に加え“どこにあるのか”も識別ができます。例えば、先程の画像を例にとると、以下のように「コーヒー、ボトル、スマホ」という3つのwhatとwhereが識別できます。Facebook上に写真をアップロードすると、顔の部分をタグ付けできるようになっていますが、あの技術も顔を検出する画像検出が使われている例ですね。Amazon RekognitionにもFace Analysisの機能があったのでこちらの画像も例として載せておきます。この画像のように、”顔がどこにあるのか?”が顔認識では取得できています。3)画像セグメンテーション(segmentation)…”その画像領域の意味”を識別それでは今回のメインである画像セグメンテーションについて見ていきましょう。Semantic Segmentation と呼ばれる画像セグメンテーションでは、画像全体や画像の一部の検出ではなくピクセル1つひとつに対して、そのピクセルが示す意味をラベル付けしていきます。画像を見たほうがわかりやすいので実際の画像を見てみましょう。引用:http://jamie.shotton.org/work/research.html一番左の画像では、”牛(cow)”に加え“草(grass)”も色づけされています。これまでに紹介した画像検出では牛という物体が4体検出される以上のことはできませんでしたが、Semantic Segmentationでは画像全体がピクセルごとに意味づけされます。この技術の応用例の1つ、自動車の自動運転があります。自動運転では以下のようにリアルタイムでセグメンテーションが行われます。引用:http://worldwide.chat/E6gij6IS8n0.videoファッション領域で画像セグメンテーションを使ってみる。それでは画像セグメンテーションの精度をみるために、実際に人間が着ている服装をsemantic segmentationで識別してみましょう。ここから少し技術的な話になります。○アルゴリズム今回はFully Convolutional Neural Networkを使いSemantic Segmentationを行います。引用:https://arxiv.org/abs/1411.4038○データセットこちらのデータセットを拝借しました。https://sites.google.com/site/fashionparsing/datasetこちらのデータ・セットでは、左図のような通常の写真と右図のようなピクセルごとに色付けされた画像のセットが2683組あり、「背景」「Tシャツ」「カバン」「ベルト」「ブレザー」「ブラウス」「コード」「ドレス」「顔」「髪」「帽子」「ジーンズ」「レギンス」「パンツ」「スカーフ」「靴」「シャツ」「肌」「スカート」「靴下」「ストッキング」「サングラス」「セーター」という領域に分けて色付けがされています。○学習今回は私たちインキュビット社にあるNvidia GPU TitanXのマシンを使ってTensorFlowで実装を行い、データのうち90%を学習に10%を検証に使いました。Adam optimizerのモデルを使い、バッチサイズ:50、学習率:10^-5、ドロップ率:0.5をという条件で約10時間かかっています。○結果セグメンテーションの精度はまぁまぁなようですが、すこし色が違う部分が有りますね。ブラウスやブレザー、ジーンズやレギンス等、細かな部分を識別しきれていないようです。人間がみても見分けづらい箇所なので、難易度は高いのでしょう。データセットが100万組ほどあるとジーンズとレギンスといった細かい違いにも対応できるかと思います。しかし今回は2700枚以下のセットしかないので、以下のようにも少し大雑把でシンプルな分類にしてみましょう。・Tシャツ、かばん、ブレザー、ブラウス、コート、セーター → トップス・顔、帽子、サングラス → 顔・ジーンズ、レギンス、パンツ、ショートスカート → ボトム・靴下、ストッキング → 靴下今度はかなり正答例と近くなりましたね。画像セグメンテーションではこのような感じで、学習データを用意しモデルを作成していきます。■最後に今回の記事では・「画像×機械学習」の応用として、画像分類、画像検出、画像セグメンテーションを紹介しました。・画像セグメンテーションの例として、服装のセグメントのステップを実際のデータを用いてご紹介しました。Incubitでは、ディープラーニングを用いた画像認識エンジンをオーダーメイドで開発しています。詳しくは、お問い合わせページよりお気軽にお問い合わせください。 

そもそもAIで何ができるのか?実現可能な7つの成果

「AI(人工知能)を活用してビジネスで成果をあげよう」という動きがますます高まってきました。しかし一方で「AIを魔法の杖だと誤解した人たちが、ムチャな要望を出してくる」というようなボヤキも、またよく耳にする話です。つまりAI関連の技術によって、何ができて何ができないのか?という点があいまいなままに、期待だけが先行しがちというのが大方の現状といえそうです。そんな中でちょっと便利な図をみつけました(記事最上部。オリジナルをもとにAI4U編集部で作成)。「AIによる7つの成果」(Seven spectrum of outcomes for AI)と題された図。その名の通り、AIによって解決できる成果、つまりユーザーニーズを7段階で整理しています。「認知」や「通知」のように現時点の技術レベルで可能な段階もあれば、人の判断を手助けする「環境認知」といったまだ難しいレベルもあります。AI事業を検討する際に、できることとできないことの整理に便利そうです。それぞれの段階の説明はこちら。1.認知AIによって可能な項目の中で、最も初歩的な段階。画像や音声、感情といったデータをもとに、ユーザーに関する何らかのパターンを読み取る段階。2.通知ユーザーが知る必要がある情報をアラートやリマインダーといった形で通知。「適切な情報」を「適切なタイミング」で「適切なユーザー」に届けることで、唐突感なく自然に受け取ってもらうことを目指す。そのために必要なユーザーの属性や好みを把握するために地理データや天気、心拍数、感情など、あらゆるデータの活用を試みる。3.提案・リコメンドサイトのアクセスデータや商品の購買情報といった過去の行動データをもとに、ユーザーへのリコメンドを実施。そのリコメンド内容もマシーンラーニング(機械学習)などによって継続的に改善することができる。つまり少数ではなくマスのユーザー群に対して、コンテンツやマーケティング施策のパーソナライゼーションが可能になる段階。4.自動化ユーザーが抱えるタスクを自動で肩代わりできる段階。さらに機械学習によって継続的な改善やチューニングを実施できる。5.予測過去に蓄積されたデータをもとに、機械学習による予測ができる段階。6.事前対処・予防起こり得る問題を予測し、潜在的なリスクを回避できる段階。7.環境認知人がすべきことを判断する際の手助けができる段階。

2030年にはこうなっている、チャットボット先端開発事例

「2030年には、ありとあらゆる分野でこれくらいのレベルのチャットボットが使える時代になっているのではないか」。AI・人工知能EXPOに登壇した、国立研究開発法人 情報通信研究機構(NICT)の鳥澤健太郎氏は、そう言いながら次のような音声でのやり取りを紹介しました。チャットボット「A銀行の定期預金が満期をむかえますね。B国の投資信託が人気のようですが、どうですか?」ユーザー「でもB国の政権が不安定だから危ないんじゃない?」チャットボット「そういう意見もありますが、一方で本日の新聞には面白いことが書かれていますよ。後で送ります」いかがでしょう?事前に決められた対話ルールに沿うだけの現状のチャットボットと比べると、かなりインテリジェントな印象です。「政治が不安定だと、普通は投資信託の価値が下がる」という事象を一般的な知識として持つことができている一方で、その内容と矛盾する「本日の新聞」の内容が「面白い」と判断することもできています。また以下のやりとりのように、保有する知識をベースに、仮説や推論を行うこともできるようになると鳥澤氏はみています。チャットボット「C社様向けの開発の件、Dアルゴリズムで効率化できそうです。関係する論文を送っておきます」ユーザー「了解。開発チーム全員に送っておいて」ユーザーが携わっている「C社様向けの開発」と「Dアルゴリズム」の内容をそれぞれ理解した上で、独立して存在している2つが関連しそうだという仮説を導きだすことができています。「膨大なテキスト、つまりビッグデータを解析した上で多くの知識を持っていないと、このようなことはできない」と鳥澤氏は語ります。次世代のボット開発に向けた取り組みこうしたインテリジェントなチャットボットの実現に向けて、鳥澤氏らが開発したのが「WISDOMちゃん」という音声型チャットボット。裏側のシステムには、すでに一般公開されているWisdom Xという大規模Web情報分析システムを採用しています。Web上にあがっている約40億ページ分の情報を知識として持ち、ユーザーの様々な質問に答えることができるといいます。WISDOMちゃんはまだ着想してから約10カ月。当日公開されたデモでのやり取りは、とてもスムーズなものでした。まだまだ研究開発の途上で、「頓珍漢な返事をすることもある」といいますが、より人間らしいやり取りの実現に向けて、従来のチャットボットとは異なる仕組みが導入されています。より有益な会話の実現に向けた仕組みとは?現状のチャットボットは対話のデータから学習することで、いわばそれを「マネすること」だと鳥澤氏はいいます。「一時はみんながこの仕組みで挑戦したが、しばらく経つと悲鳴が聞こえてきた。何を言っても相槌しか打たない。これだけでは面白いことはできない」(鳥澤氏)。つまりこういうことです。ユーザーとのやり取りの中には、たとえば「iPS細胞ってすごいね」といった意図が分かりにくい問いかけも多数。従来のボットでは、こうしたあいまいな問いかけの意図をうまく理解できず、単なる相槌や頓珍漢や返事に終始しがちでした。そこで鳥澤氏らは、あいまいなユーザー入力が来た場合、まずそれをシステムが理解できる「質問」に翻訳することで、より自然な応答を返す仕組みを作りました。たとえば以下がその一例です。・ユーザー:「iPS細胞ってすごいね」・Wisdom X:システム内部で「iPS細胞で何ができる?」という「質問」に変換・Wisdom X:iPS細胞によって可能なことのリストの中から、面白そうな応答をピックアップして出力「たとえばある端末や家電製品ってすごいよね、という発言があったとして、それに対して具体的に何ができるという返事が続くというのは、実際の対話でも割と自然な流れなのではないか」(鳥澤氏)。多様な会話、「質問」の数を増やすことで実現上記で育成した「質問」は、「iPS細胞で何ができるの?」というものでしたが、生成できる「質問」の種類が多ければ多いほど、様々な対話に対応できることになるというわけです。たとえばユーザーからの問いかけとして、「日経新聞に『南鳥島沖に球状レアメタル』という記事が出ているね」というものがあったとします。受験生向けの対話システムであれば、・「質問」として「南鳥島はどこにある」を生成・応答として「南鳥島は日本最東端にあります。覚えておきましょう」を返信またビジネスマン向けの何らかのシステムであれば、・「質問」として「レアメタルは何に使う?」「誰が(レアメタルを使う)ハイブリッド車を製造する?」を生成・応答として「自動車会社に影響があるかもしれません」を返信ただ育成した複数の「質問」の中から、適切な「質問」を選ぶという機能を実装するには、まだ至っていないとのこと。今後の課題こうした仕組みのチャットボットが目指す未来像は、ユーザーの目的を理解した上で、有益な雑談を行うというものですが、課題もあるといいます。まず前提条件として、ユーザー自身やその目的に関する知識を大量に持たせる必要があるということ(適切なビッグデータの必要性)。またそうしてユーザー特有の情報や状況に応じて返答をするということは、一種の疑似的な人格を持つ必要があるといいます。たとえば一例として挙げられたのがドラえもん。「のび太を真人間にする」という目的を持ち、のび太に関する知識を山ほど持っていることで、例のドラえもんの「人格」が成立しているといいます。そしてそのような疑似的な人格を、ビジネスや介護など様々な目的に応じて適切にプログラムすることは可能なのか?という点も懸念とのこと。さらに大量の学習データの構築や、基礎的なテキスト解析の精度を向上させることも必須になってくるといいます。ユーザーに寄り添うインテリジェントなチャットボットというのは、大きな可能性がありつつも、まだまだ課題も多そうです。

こんな使い方もあった、チャットボットのユニークな活用事例集

ビジネスやテック系のニュースで、引き続きチャットボットが日々話題になっています。こういうテクノロジー系のメディアをやっていると、つい目新しい部分、つまり「技術的にこんなこともできるようになった!」「この業界でもついにチャットボットを導入!」といった点に注目したくなってしまいます。けれどもそもそもチャットボットは何らかのユーザーニーズを満たすための手段です。そうなると目新しい技術だけ騒いで終わりになってしまうのは、少し違う気もしてしまいます。ユーザーニーズを最も適切に満たす手段が、最も洗練された技術である必要は必ずしもないからです。たとえばメルマガというチャネル。ネット黎明期からある古い情報発信手段ですが、検索技術が洗練され、SNSが登場した今になっても、存在感がますます増しています。メルマガにしか満たせないユーザーニーズ(関心の高い情報源による発信をタイムリーに確実に受け取りたい)があるからです。チャットボットもまた同じかなと思います。まだぎこちないやりとりしかできないですが、うまく使えば効果は絶大なはず。「うまく使う」というのは、「自社のユーザーの悩み事は何か?」「それを解決するための手段とは?」という視点で、チャットボットを活用すること。今回はチャットボットの事例集をお届け。特別な技術は使っていないけれども、ユーザーの課題解決を念頭に、絶妙なベネフィットを提供している施策例です。チャットボットの使い道は本当に多種多様だなと思わされます。■イヤな男をシャットダウン、女性の味方のチャットボット最初の事例は、出会い系サイト向けのボット「Ghostbot」です。出会い系サイトを使う女性にとって、悩みの一つがデリカシーのない男とのやりとり。自分が相手にされていないと感じると罵声を浴びせかけたり、ひいては卑猥な画像を送りつける輩もいたりします。こういうシチュエーションにも対処しないといけないとなると、出会い系サイトを使う女性にとってはストレスでしょう。そんな時に役立つのがGhostbot。女性が「あ、この男ダメだ」と思った瞬間に、以下のような設定一つで相手とのやりとりをボットが代わりに担ってくれるというもの。Ghostbotの役割は、相手との会話を自然に終わらせること。これ以上メールを続けたくないという旨をやんわりと伝えてくれるそう。Ghostbotのプロダクトデザイナーいわく、「会話を盛り下げて、エンゲージメントを下げる」よう設計されているとのこと。出会い系サイトでのやりとりにおいて、ボットが自動で返信できるようにするためには、元となる学習データが必要です。そのためGhostbotの担当者は、ネット上にアップされている(さらされている?)出会い系でのやりとりをかき集めたといいます。一例がByeFelipeというインスタグラムのアカウント。ここには出会い系で逆上した男どもによる、女性へ罵倒メッセージのキャプチャがアップされています(彼らもまさかこんな形でネット上にさらされるとは思っていなかったでしょう)。面倒な会話を自分で終わらせなくてはいけない、もしくはブチっと切ってしまうとなると面倒ですが、あとはボットがやってくれると思えば気が楽になりそうです。■ AI弁護士、複雑な法的手続きが一瞬で英BBCから「ネット界のロビンフット」と称された期待のスタートアップDoNotPay。同社は一般人では難しい様々な法的手続きを自動で担ってくれるチャットボットを提供しています。創業者は若干20歳でスタンフォード大学に通うJoshua Browder氏。18歳の時に30枚以上の駐車違反切符をきられたことがDoNotPayを立ち上げたきっかけだったといいます。交通違反切符は、適切に申請すれば取り消してもらえる可能性がありますが、必要な法的手続きを個人でやるのは至難の業。DoNotPayのチャットボットを使えば、いくつかの質問に答えるだけで、1分ほどで申請書が出来てしまいます。DoNotPayによって取り消された違反切符は、イギリスだけでも約17万5000件(16年末時点)。金額にすると約5億6000万円に上るといいます。現在は違反切符の取り消しだけでなく、遅延した飛行機や電車の補償請求、ホームレスの住宅申請、HIV患者への法的アドバイス、難民申請などにも対応しています。根底にあるのは、複雑な法的手続きをチャットボットが肩代わりすることで、市民が本来受けられる権利を享受できるようにしようという考えです。複雑で面倒な手続きを肩代わりするというスタイルは、今後チャットボットのあるあるパターンの一つになりそうです。■投票率を上げろ、面倒な有権者登録を肩代わりこれも同じく面倒な作業を肩代わり系のチャットボットです。有権者登録をチャットボットがやってくれるというもの。アメリカの大統領選挙に投票するには、各州のルールに則って有権者登録をする必要があります。ただこの手続きが非常に面倒らしく、投票率を下げる要因になっています。たとえば2012年の大統領選挙では、有資格者のうち30%以上が有権者登録をしていなかったとのこと。さらに18~24歳の若年層に限ると、この割合はさらに上がるそう。そこでFight for the FutureというNPOが制作したチャットボット”HelloVote”では、いくつかの質問に答えるだけで、1~2分で手続きを完了できるようになっています。氏名や住所、生年月日、運転免許情報などの個人情報を入力することで、州の有権者データベースに登録される仕組みです(ただしオンラインでの登録を認めていない州もあるので、一部郵送などのステップが入る地域もあり)。ターゲットはスマートフォンに慣れ親しんだ若年層。モバイルのテキストメッセージやFacebookメッセンジャー上にてチャットベースで手続きできるので、従来の書類手続きよりかなり敷居は下がりそうです。ただ投票率を下げている要因には、手続きの煩雑さに加えて、費用の問題もあります。最大で約7000円の費用がかかる州もあるため、貧困層による投票率に悪影響を与えているよう。チャットボットだけで全て解決というわけにはいかなそうですね。■有料購読の管理キャンセル毎月費用がかかる有料サービスの管理って、地味に大変だったりしますよね。通信サービスのオプションをキャンセルしたと思っていたけれども、実はできておらず毎月数百円引かれていた、なんてこともありがちです。チャットボットのTruebillでは、銀行口座もしくはクレジットカード情報をもとに、Netflixやスマホの通信費、スポーツジムのメンバーシップといった有料サービスを抽出。一覧化して管理できることに加えて、キャンセルもボット上でできてしまいます。ターゲット層は、お金の管理が苦手なルーズな人が主になってきそうです。となると、慣れ親しんだプラットフォーム(Facebookメッセンジャーなど)でチャットによって完結できるという手軽さは、非常に良さそうです。■ボットを通してユーザー調査上記の事例とは少し毛色が違う施策です。米デザインコンサル大手のIDEOは、ユーザー調査の手段としてチャットボットを活用。そこで得た知見を製品デザインに活かしているとのこと。一例として挙げられているのが、日本の電機メーカーとの協業。2014年に運動する女性向けのウェアラブルデバイスとスマホアプリのデザインに携わったそう。ユーザーによる日々の行動をトラッキングして得たデータをもとに、フィットネスに関するアドバイスを提供するというもの。ここで問題になってくるのが、ターゲット層(35~54歳のアメリカ人女性)はフィットネス向けのウェアラブルデバイスに何を求めるのか?という点。従来の男性向け製品のように、走行距離のようなデータの優劣を他のユーザーと競う、というベネフィットでは女性が満足できません。そこで彼女たちのニーズを探るためのプロタイピングツールとして、IDEOはボットを開発。被験者の女性がランニング中に、様々なメッセージを送りました。たとえば「素晴らしいワークアウトです。この調子でいきましょう」「1万歩まであと5分です」といった具合です。ボットを通して彼女たちの反応を観察した結果、やはり男性とは違うニーズがみえてきました。フィットネスデータで優劣を競いたがる男性に対して、女性の場合は自身のアクティビティにまつわるストーリー全体をシェアしたい、という傾向があったそう。たとえば疲れて途中でワークアウトをやめてしまった、甘い物に手を出してしまったなどの失敗談も含めて、コミュニケーション手段としてシェアしたがったとのこと。ターゲットの反応をリアルタイムで吸い上げる手段として、チャットボットをうまく活用した事例といえるでしょう。■履歴書替わりにチャットボット最後は、求職者がチャットボットによって自身の経歴をアピールした事例。チャットボットを通じて、採用担当者が彼女の経歴や実績を閲覧できるようにしたのです。「求職者に関する情報を知りたい」という企業側のニーズに応えた一例です。ボットを作ったのは、サンフランシスコ在住のマーケター、Esther Crawfordさん。彼女はエンジニアではなく、HTMLやCSS、JSの基礎知識がある程度。そのためTextItのようなプログラミングなしで構築できるツールを使ってボットを作ったといいます。求職者が自身の経歴をボットでアピールする斬新さが話題となり、2万4000件ものメッセージをやりとりするに至ったそう。その中にはFacebookやGoogle、Microsoftなどの大手も含まれていたといいます。チャットボットが話題になり始めた旬な時期だっただけに、彼女のマーケターとしてのセンスやテクノロジーへの理解を強烈にアピールできた結果といえるでしょう。

ディープラーニングの実用例

人間の知能をコンピュータによって再現しようとする人工知能(AI)が急速に普及しています。活用対象は、スマートフォン関連の技術や自動車、住宅、公共施設などあらゆる分野に及びます。いわゆるAI関連の技術の中でも、ビジネスでの活用が急速に進んでいるのが機械学習。大量のデータを元に複雑な現象の裏に潜むパターンを抽出することで、特定の判断や予測に役立てるための技術です。今回は機械学習関連の中でも、ビジネスでの応用急速に進むディープラーニングと呼ばれる技術の活用事例をご紹介します。ディープラーニングとは?従来の機械学習は、データによるシステムの学習方法を指定する必要があったのに対して、2015年頃からビジネス活用が進み始めたディープラーニングは、学習方法自体をも自身で学習することが可能。さらに、パターンを抽出できる精度も従来の手法を大きく上回ります。ビジネス活用における現状大量のデータから複雑な現象のパターンを抽出できるという汎用性の高さのため、ディープラーニングの用途は様々。自動車の自動運転において障害物や標識を判別するための画像認識や、スマートフォンでの音声検索のための音声認識など、多くの場面で活用されています。富士キメラ総研の調査(図1)によると、日本のAIビジネス(AIを活用したサービス・コンサルティングなど)の市場規模は、2016年度の約2700億円から、2030年度には約10倍の2兆円に達すると予想されています。業種別でみると特に公共/社会インフラでの成長率が大きく、同期間の拡大幅は約30倍に及びます。急速な発展・普及の背景として、インターネットの普及により学習に必要なデータが容易に収集できるようになったことや、コンピュータの性能向上によって、計算速度が格段に速くなっている点があげられます。図1 AIビジネスの国内市場推移 [1]さらに、三菱UFJリサーチ&コンサルティングによる2017年の調査(図2)では、日本企業の約80%がAIを活用したいと考えている、もしくは活用予定、活用中であると判明しました。すでにビジネス界隈で大きく注目されているAIですが、さらに爆発的に普及するほどの潜在力を秘めていると言えるでしょう。図2. IoTやビッグデータ・AIなどの活用状況・活用意向 [2]ビジネス活用における4種類ビジネスにおけるディープラーニングの活用タイプは、システムの学習に使われるデータの種類によって次の4つに分けられます。 ①    画像・映像データ②    テキストデータ③    音声データ④    数値データ それぞれの概要を見ていきましょう。 1 画像・映像データを利用したディープラーニングは、学習に用いられる画像データが入手しやすいことから、近年最も発展が進んでいる分野です。自動運転や工場での不良品検知、顔認識技術などで利用されています。2017年には、IoTや自動運転技術に特化しているPreferred Networksがトヨタから約105億円の出資を受けるなど、現在も大手の自動車企業やIT企業がこぞって自動運転の研究開発に着手。画像・映像認識技術は日に日に進歩しています。 2 テキストデータはチャットボット(自動会話プログラム)や自動翻訳、SNSデータを分析したマーケティング等に活用されています。例えば一昔前ではほぼ使い物にならなかった自動翻訳サービスも現在ではかなり高い精度の翻訳が可能になってきています。そのため、音声データ解析を組み合わせたリアルタイム音声翻訳の実用化が2019~2020年頃に見込まれるなど、ビジネス活用が進んでいる分野です。 3 音声データを使ったディープラーニングの分野では、iPhoneのSiriのように発言内容を文字に変換するシステムや、発話者の感情を分析する音声感情解析技術が登場するなど、研究・実用化が進んでいます。例えば同分野において日本発のベンチャー企業Empathは、音声感情解析をメンタルヘルスケアに活用。声のボリュームや話す速さから働く人のストレスレベルを算出するサービス等を展開しています。 4 数値データは、近年ビッグデータとして取得が容易になっていることから従来よりも高い精度で、病気の発症率や株価をはじめとする、様々な値を予測できるようになりました。例えばYouTubeやGoogle Playなどのレコメンド機能にも数値データを元にしたディープラーニングが使われており、どちらもディープラーニングを使用した機能の導入前と比べパフォーマンスが劇的に上昇したそうです。ディープラーニングの実用例1:画像データ自動車の自動運転を中心に普及が進む画像認識技術ですが、農業にも用いられようとしています。AIと農業というと意外な組み合わせに見えるかもしれません。しかしもともと農業は非常に人手がかかる作業が多いため、タスクの自動化にたけたAIとの相性が良い分野なのです。弊社が手掛けた事例を一つご紹介しましょう。ディープラーニングによって、トマトの収穫作業を自動化した例です。トマトのような作物を収穫する際に、もし機械が実の部分と枝の部分を正確に認識・区別できれば、機械による作物収穫が可能となります。その際にまず問題点としてあがるのが、実とそれ以外の部分を正確に認識できなくてはいけない点です。そこでまず、ディープラーニングによる学習データとして作物の画像を収集します。実際に農家へ出向き、トマトやキュウリなどの作物の写真を撮ってきました。次に撮影した写真を基に、あらかじめ実、枝、幹、蔕(へた)などの部分ごとに区分けしてから人工知能モデルに学習させます。その後、画像内の作物の部分を自動的に色分けできるまでに精度を上げていきます。いざモデルが完成し、正確に作物の部位を認識できるようになれば、実から何cm上の部分を切り取って収穫する、などといった作業が機械によって可能となってきます。また作物の収穫だけでなく、実の熟し具合の判別にも活用できます。正確に実を認識することで、熟し具合を測定するために必要な個所を判別できるため、植物の別の部分を測定して誤った測定につながることも防げます。さらに葉の部分を正確に認識することで、植物の風通しを良くするための葉かき作業に応用することもできます。このように、正確に植物の箇所を部分ごとに認識することで農業における多くの作業の自動化が可能となるのです。日本の農業が人手不足に陥る一つが、農業従事者の高齢化や農業への新規参入の難しさです。今回ご紹介した画像認識技術を用いて、作業の自動化を進めていくことで、日本の農業が直面する問題を緩和・解決していくことが可能であると考えています。ディープラーニングの実用例2:テキストデータ画像データと比べると、テキストデータの活用方法などはイメージしにくいかもしれません。しかし実際は近年のTwitterやFacebookをはじめとするSNSの普及によって、テキストデータ量が爆発的に増えているため、活用範囲が広がっています。その用途は様々ですが、今回は我々が手掛けた医療分野での事例をご紹介します。SNS上の投稿から、投稿した人の症状を判別できるシステムです。SNS上の何気ない会話や投稿も、テキストデータとして大いに役立つのです。まずSNS上において、対象に関するトーク履歴やつぶやきをテキストデータとして取得して、人工知能モデルで解析します。この際、人工知能モデルにはあらかじめ、投稿の文脈も考慮した内容の理解と、どのような内容がどのような症状を表すのかといったことを学習させておきます。このモデルによる解析によって、そのトークやつぶやきを行った人がどのような症状を訴えているのかを認識できるのです。この解析結果を用いれば、実際の医療向けのサービスとして応用できます。例えば患者の症状が緊急を要する場合は近くの医師を、特殊な症状であればその症状の専門医をレコメンドする、といったサービスなどです。現在、医師の不足がますます問題となり、自分に合った医師を探すことも簡単でない状態ですが、このようなサービスを用いることで、自分の症状に合った医師を自動で見つけることができます。また、重い症状でなければ家でできる治療法をレコメンドするといった機能も可能です。さらにレコメンドサービスだけでなく、公害の検知に役立てることも可能でしょう。例えばある一定範囲の地域で同じような症状を訴える人が増えたことを検知することで、公害が起きている可能性があるとみなし、人工知能が警告を作る、といった具合です。これらのテキストデータ活用事例は、医療分野の中でも一例に過ぎないほか、法律やマーケティングなどの他分野においても多くの活用方法が多く存在します。ディープラーニングの実用例3:音声データ音声データを活用したディープラーニングシステムの特徴として、ユーザーによる利用とデータの処理がリアルタイムで進む場合が多いという点があげられます。身近なものであれば、スマートデバイスの音声検索・音声操作や多言語の同時翻訳システムなどがあげられるでしょう。今回挙げる事例は弊社で手がけたコールセンターでの応用例ですが、これもユーザーによる利用とデータ処理がリアルタイムとなった例です。コールセンターが抱える問題点として起こりがちなのが、経験が浅い職員とベテランの職員との間で対応能力に差があるという点。その場合、電話の向こうに出た職員のスキルレベルによって対応が変わってしまうということが起こってしまうでしょう。そこで弊社ではディープラーニングによる解決を図りました。顧客と会話中の職員向けに、その場に応じた適切な返答内容を自動かつリアルタイムで表示するシステムを作ることで、経験が浅い職員でもより質の高い顧客対応をできるようにしたのです。まずコールセンターの職員と顧客との間の会話データを用意。発言内容やトーンを人工知能モデルが認識できるように学習させました。その人工知能モデルをもとに、コールセンターの職員向けの返答表示システムを作りました。ディープラーニングの実用例4:数値データ製造業でよくあるディープラーニング活用パターンの一つとして、工場における生産工程の改善・効率化があります。各種のセンサーを設置して生産工程におけるデータを集めることで、不良品が発生するタイミングを予測するなどして、生産効率を上げていくのです。今回ご紹介するのは、弊社が支援したカメラ向けレンズ生産の例です。レンズは、カメラの性能を大きく左右する重要な部位であるため、生産基準が非常に厳しく、その厚さや凹凸が少しでも基準と異なるだけで不良品とみなされてしまいます。まずは生産工程においてセンサーを設置することで、機械の温度や電圧、モーターの回転数をはじめとする数百種類のデータを計測しました。さらに生産機械の状態の変化(気温などの外部要因によって刻々と変わっていきます)や、それらの要因を数値化します。必要なセンサーデータと製品の検査データがそろったら、それらを元に人工知能モデルを学習させます。それによって、リアルタイムで得られたセンサーデータをもとに、製品の品質を予測できるようになるのです。こうして出来上がった人工知能モデルを使えば、不良品のできるタイミングを予測することが可能になり、ロスの減少にもつながります。さらに数値データを元にしたディープラーニングは、今回ご紹介した品質管理だけでなく、生産計画の作成や在庫の最適化にも使えるなど、応用先は様々です。製造業における技術的改革が推進されているドイツやアメリカを中心に、ディープラーニングへの注目度が高まっており、それにつられるように日本の製造業においても導入の試みが増えてきています。まとめインキュビットでは今回ご紹介した事例をはじめ、数多くのディープラーニング案件を手掛けています。AIを使ったサービス・プロダクト開発をご検討されている事業会社の方は、是非一度ご相談ください。参考文献[1]「AIビジネス市場規模は2030年度に2兆円、金融分野や公共分野でAI導入盛んに」,日経コンピュータ 2017年1月5日号、p.60https://tech.nikkeibp.co.jp/it/atclact/active/16/033100020/040300097/[2]「IoT・ビッグデータ・AI等が雇用・労働に与える影響に関する研究会 報告書」, 厚生労働省, 2017.03https://www.mhlw.go.jp/file/04-Houdouhappyou-11602000-Shokugyouanteikyoku-Koyouseisakuka/0000166533.pdf

画像認識技術とは?

この記事では人工知能(AI)による画像認識技術の概要と、ビジネスにおける活用方法について紹介します。目次画像認識とは?画像認識の仕組み画像認識のビジネス活用状況と課題画像認識の活用事例1画像認識の活用事例2画像認識の活用事例3画像認識とは?画像認識とは機械がものを見分ける技術のことを指します。例えば犬と猫、傘と杖など、人間は一見類似した物事を見分けることができますが、機械にもそれが可能です。この機械が「見分ける」際に用いられる技術が画像認識と呼ばれるものです。画像認識は1980年代からある古い技術ですが、2012年を境に注目を浴び始めました。画像認識精度を競う「ILSVRC」という大会において、1位のチームの精度が2位のチームの精度を10%以上も引き離したことがきっかけです。その優勝チームが採用したのが、AIの一種であるディープラーニングによる画像認識技術だったのです。驚異の結果をたたき出した、ディープラーニングによる画像認識の仕組みとは何か?詳しく見ていきましょう。画像認識の仕組み画像認識の仕組みを理解するには、まずコンピューターがどのように画像を見ているか理解することが必要です。コンピューターは、画像を数値の集まりとして認識しています。たとえば図1は、数字「9」の手書き文字がどのようにコンピューターによって処理されているかを図解したものです。図1. 出典:https://www.youtube.com/watch?v=aircAruvnKk図1のような白黒画像の場合、0から1の間の値によって色を表しています。つまり0から1によって決められた色のピクセルを並べることで数字「9」を表現しているのです。図1では28×28=784個のピクセルを用いて「9 」を表しています。カラー画像でも仕組みは変わらず、0から1という値の代わりにRGBと呼ばれる3色(赤、緑、青)を組み合わせた数字の集合体などで画像を表現しています。例えば、紫の場合は(128, 0, 128)という3つの数字を用います。これらの数を無数に集めたのが画像データです。この数値の集合体をコンピューターが認識するためには、機械学習と呼ばれる方法を使います。ここでいう「認識」とは、画像に写っている「もの」の特徴を定義できているということです。機械学習は、前述したように大まかに次の2つに分けることができます。ディープラーニングが主流になる前の手法ディープラーニングを用いた手法「1」と「2」の方法は、いずれもコンピューターに画像を認識させるために、学習データとして蓄積された画像データを使います。ただ従来の「1」の方法では、人間が特徴を定義してあげる必要がありました。例えば図2のように、「3」という数字の特徴は輪郭、図3のように「人間の顔」の場合は目や口などが特徴になります。図2. 出典:人口知能ビジネスの教本図3. 出典:TECHACADEMY magazineこのように、人間が定義してあげた特徴を数値化学習用のデータと新たな画像がどの程度類似しているかを比較するというのが、従来の画像認識のやり方でした。しかしこの方法は、人間が数多くのパターンごとに特徴の定義をしなければならないため、現実的ではありませんでした。例えば、同じ「顔」を認識する場合でも、横や正面、斜め上、斜め下から見た時では目や口などの特徴の見え方が違います。このようにパターンが増えれば増えるほど精度の向上は難しかったのです。一方で「2」の方法では、画像に写る「もの」の特徴をコンピューターに自動で定義させることができます。これを可能にしているのがディープラーニングの技術です(ディープラーニングについて興味のある方はこの記事をご覧ください)。そのため人間が行う作業は画像データの準備のみになりました。具体的なステップは、次のようになります。大量の画像データ(数万枚~数十万枚)を用意し、事前処理(ピクセル数の均一化など)を行う。機械にそれらの画像を読み込ませた後に、ディープラーニングによって画像内にある「もの」の特徴を学習させる。新たな画像データの中にある「もの」を見分けられる機械(学習済みモデルと呼ばれる)が完成。画像認識のビジネス活用分野と課題主流であるディープラーニングを用いた画像認識の強みとして、24時間稼働が可能1度に多くのものを認識できる精度の高さなどが挙げられます。ここでは代表的な画像認識のビジネス活用分野を3つ紹介します。 危険察知の分野画像認識のビジネス活用の代表格とも呼べる分野に、危険察知があります。分かりやすいのが自動車の例です。図4をご覧ください。ドライブレコーダーによって撮られた画像ですが、子どもたちが右から左へ飛び出している様子が見て取れます。自動運転を可能にするには、このような事態に対して車が臨機応変に対応できることが重要でしょう。図4. 出典:http://commonpost.info/?p=137946そのためには:人間が前方にいると認識するその人間による行動を予測する具体的な動作を実施する(ブレーキをかけるなど)というステップが必要です。この中で画像認識の技術が使われるのは、「1.人間が前方にいると認識する」のステップです。他にも自動運転の際に認識できる必要があるものとしては、他の自動車や工事現場のコーンなどの障害物、そして信号の状態などがあるでしょう。さらにこの危険察知は道路上だけにとどまりません。スイミングプールでの監視や工事現場などをはじめ、画像認識の応用先は多岐に渡るといえます。しかし同時にまだまだ課題の山積する分野でもあります。課題は主に3つです。1つ目は、環境(天気や場所など)が変わっても正常に認識ができるのかという技術的問題。2つ目は事故が発生した際に誰が(運転者、自動車、ソフトウェアメーカーなど)責任を負うかなどの法的問題。3つ目はトロッコ問題と呼ばれる倫理的問題。例えば、ブレーキが間に合わない状況で直進すれば壁に激突しドライバーが死んでしまうが、代わりにハンドルをきって歩道に乗り上げればドライバーは助かるものの歩行者が巻き添えになってしまうという選択肢に迫られた際に、AIはどうすべきかなどです。画像認識で様々なことを認識できるからこその問題と言えるでしょう。 顔認証の分野また危険察知の次に注目されている分野として、顔認証があります。顔認証とは、顔の画像データから「この人はAさん、この人はBさん」というように自動で判断させる技術です。学習データとして元々用意している画像データと、新たな画像データを比べることで、同じ顔かどうかを認証しているのです。これにより、セキュリティーチェックや防犯カメラから犯人を探す際などに人手に頼らない効率性を実現できます。また、顔認証を使った決済方法や、顔認証を用いてその人の属性(性別、年齢など)を特定する、といった新たなサービスでも画像認識は使われています。サービスの一例として、属性情報(性・年代)と天候•気温などの情報をもとに「おすすめ」ドリンクを提示してくれる自動販売機があります。この「性・年代情報」を得るために、画像認識によって目鼻の位置やしわを解析しているのです。一方で主な課題として、個人情報の扱いをはじめとする法律上の問題があります。改正個人情報保護法によると、顔写真はたとえ数値化してあっても個人情報と見なされるため、データ提供者に同意を得ることが必要。さらに漏洩や滅失などのトラブルがあった際に速やかに対策を講じるなどの責任が多くあります。また肖像権やプライバシー権などを犯さないための配慮も必要です。実際に肖像権の侵害を訴えた一般人に対し、損害賠償35万円を支払う命令が下った例も存在します(東京地判平成17年9月27日判決)。そのためデータをどのような形で(画像か数値かなど)、どこに(クラウドのようなサービスを利用するなど)、保存するかを深く考えていかなればならないのです。 異常認識の分野最後に画像認識が活用されている分野として、「異常箇所の認識」があります。異常箇所の認識とは、画像データを元に、正常な場合であればあるべきでないもの(異常箇所)を特定してくれる技術のことを指します。これは、正常な場合と異常な場合の画像データを分けてAIに学習させることで、実現を可能にしています。代表的な例は医療分野での活用です。例えば、人間の医師が胃がんを発見する場合、胃カメラなどで撮った「画像データ」と、自身の「経験」「目」をもとに胃がん細胞を発見しています。これを画像認識の技術を用いて機械に認識、そして判断させることで、新人医師の研修や手術医のサポート、そしてロボットによる手術に役立てることが可能なのです。他にも皮膚病変(皮膚ガンや発疹など)を皮膚の状態から、うつ病や認知症などを顔の表情から症状の種類や重症度を算出する試みがあります。ここで考えられる主な課題は、前述した個人情報の問題に加えて、導入への抵抗などがあるでしょう。導入への抵抗は医療という人の命に関わる分野において患者がどこまで「機械化」を受け入れられるかという課題です。例えば、画像認識AIによってサポートがされている手術を患者は受け入れられるか?それがロボットによる手術になった際はどうなのか?これらの抵抗に対して、医師やAIを開発するチーム・会社はきちんと説明責任を果たしていかなければならないのです。特に、ディープラーニングの技術は特徴を機械が見つけることからも分かるように、仕組みがブラックボックス化してしまう傾向があるため、この説明責任はより強くあります。活用事例1:ユニバーサルスタジオジャパンUSJの課題の1つに、年間スタジオパスの転売がありました。これを解決するためにUSJは2007年11月から顔認証システムを導入しています。年間スタジオパスを持っているゲストは、入場の際にカメラに顔を向けるだけで入場をすることができるというものです。ディープラーニングによる精度•速度の向上により、顔認証にかかる時間は1秒まで短縮できたといいます。これによってゲストに「顔パス」で入場するような感覚を提供し、新たな顧客体験の1つとなっています。活用事例2:株式会社カヤックカヤックはウェブコンテンツ制作を中心に業績を上げている会社です。彼らのサービスの1つであるゲームコミュニティーサービスの課題として、ユーザーが快適にゲームコミュニティーで時間を過ごせるよう不適切な投稿画像を排除する、というものがあったといいます。しかし、全体のコンテンツ量が増えるにつれ、人による目視で不適切画像の監視を24時間体制でかつ網羅的に続けるのが難しくなっていきました。そこで導入されたのがディープラーニングを用いた画像認識サービス。従来の人による目視に比べ、より高い検知率99.5%を実現しました。活用事例3:インキュビットでの活用事例弊社インキュビットによる画像認識を用いたサービスの1つに、自動車のタイプや通行量を分析するものがあります。道路上のどこで、どのくらい、どのような自動車(乗用車、トラックなど)が通行しているのかという調査•分析は、従来は人の目で実施していました。インキュビットはAIのディープラーニングを用いたサービスによって、この作業を短縮し、交通計画実施の効率化を可能にしました。図5. インキュビットの交通分析サービス参考文献[1]    ディープラーニングが切り拓く画像認識ビジネスの可能性. 人工知能ビジネスの教本. 2017年5月. p.124-144.[2]    ディープラーニングの仕組み. グーグルに学ぶディープラーニング. 2017年3月. p.88-102.[3]    山下隆義. イラストで学ぶディープラーニング. 2016年6月. 207p.[4]    株式会社カヤック. 「AI×人による業務効率化を実施。時間や運用コストの削減に加え、ユーザー満足度もアップ」 2018年11月13日アクセス.

Spotifyって機械学習をどう活用してるの?⇒元社員がQuoraで回答

Q&AサイトのQuoraに、先月こんな質問があがっていました。「Spotifyはどのようにして機械学習で成果を出してきたのでしょうか?機械学習を当初から重要視していたのか、もしくは途中からキャッチアップしたのでしょうか?」この質問に対して、2008年~2015年まで同社にて機械学習チームを率いていたErik Bernhardssonという人物が回答を寄せています。機械学習も活用した楽曲リコメンドに力を入れるSpotify。その中の人だった彼が、若干の内部事情も含めて同社による取り組み状況を明かしていました。興味深い内容だったので、少し補足しながら彼の回答を紹介していきたいと思います!Spotifyにおける機械学習の重要性Bernhardsson氏によるコメントを紹介する前に、Spotifyにおける機械学習の重要性について触れておきたいと思います。言わずもがなですが、Spotifyはスウェーデンを本拠地とする音楽ストリーミング配信サービスの最大手。同社は、各ユーザーに最適な楽曲をリコメンドする機能を実現する仕組みの一部として、機械学習を取り入れていいます。2011年に1500万曲だったSpotifyによる配信楽曲数は、いまや4,000万曲以上にまで膨れ上がっています。この膨大な楽曲群の中から、一人のユーザーが自力で好みの曲を探しきることは不可能です。そこで重要になってくるのが楽曲のリコメンド機能。同機能を通じて、自分では思いもよらなかった新しい曲と出会えることも、この手のサービスの魅力です。Spotifyはリコメンド機能として、毎週月曜にお薦めの楽曲群を配信してくれる「Discovery Weekly」を2015年にローンチ。同社でプロダクト・ディレクターを務めるMatthew Ogle氏は、「Discover Weekly」について、次のように豪語しています。「仮に世界中にリスナーが20人しかいないようなニッチで変わったミュージシャンがいたとする。我々ならその20人とミュージシャンをつなげることができる」。実際にユーザーの好みを把握するDiscovery Weeklyの精度に驚愕する人も出てきています。「精度が高すぎてもはや怖い」との声も。It's scary how well @Spotify Discover Weekly playlists know me. Like former-lover-who-lived-through-a-near-death experience-with-me well.— dave horwitz🪣 (@Dave_Horwitz) October 27, 2015毎週の配信を手ぐすね引いて待っているユーザーも多いのでしょう。システムの不具合によってDiscovery Weeklyの配信が遅れた時には、「生きる意味を見失わないようにすることで精いっぱいだ」と嘆くユーザーが出る始末。It's 10:41am on Monday and my @Spotify Discover Weekly playlist hasn't updated yet and I'm doing my best not to have an existential crisis.— Caitlin Rush (@crush) September 21, 2015こうした背景がありつつの、「Spotifyってどうやって機械学習で成果を出してきたの?」という先の質問が出てきたのでしょう。当初は協調フィルタリング中心QuoraでのBernhardsson氏によるコメントによると、Spotifyのリコメンド機能の開発は、2012年まではサイドプロジェクトとして彼一人で担当していたとのこと。初期は「協調フィルタリング」と呼ばれる手法に注力するようにしたことで、一定の成果が出るようになったと語っています。協調フィルタリングとは、ユーザーによる過去の行動履歴から類推した好みをもとに、おすすめを提示する方法です。しかし単純な協調フィルタリングの欠点は、ユーザーによるレビューや購買といった行動にあらわれた物事しか評価できない点。それではユーザーの好みを正確に評価しきれません。例えばあるジャンルの音楽を全く聴いていないユーザーがいたとしても、嫌いだからではなく単に知らないからかもしれません。また普段はロックばかり聴いているユーザーが、ある日子供向けの音楽ばかり流したとしても、それは自分の子どものために流しただけという場合もあります。こうした文脈を考慮しないで、子ども向けの曲ばかりリコメンドしてしまっては、「なんだ、分かってないな」となってしまいます。そこで協調フィルタリングをベースとしつつも、行動履歴としてあらわれない要因を統計的に把握する手法を開発したことで、さらに精度が改善されたといいます。また2014年に、ビッグデータを駆使した音楽リコメンデーションエンジン「The Echo Nest」を買収したことも大きな契機だったそう。The Echo Nestは、楽曲のテンポやコード、ピッチなどの音楽的要素や、楽曲に関するネット上の情報を解析できます。これによって協調フィルタリングでは難しかったセマンティック分析、つまり楽曲そのものを分析した上でのリコメンドができることになります。ただBernhardsson氏によると、こうした技術がSpotifyのリコメンド機能に活かされることはなかったそう(理由は書かれていませんが)。それよりもThe Echo Nestにいた優秀な人材が流入してきたことのメリットのほうが、はるかに大きかったとのこと。ディープラーニングの活用さらに2014年にインターンとして入社してきたSander Dieleman氏による取り組みをきっかけに、Spotifyによるディープラーニング(深層学習)の活用が本格化したといいます。Dieleman氏は、現在Google傘下のDeepMind社でリサーチサイエンティストを務める人物です。Bernhardsson氏によると、現在のDiscovery Weeklyの仕組みは、協調フィルタリングをベースにしつつ、ディープラーニングで補強した形ではないかとしています(Bernhardsson氏はDiscovery Weeklyローンチ前に退社しているので、あくまで推測)。協調フィルタリングとディープラーニングのかけ合わせによるリコメンドとは、どういうことなのでしょうか?Quoraの回答には詳細がなかったので、Dieleman氏による過去のブログ記事をみてみます。Dieleman氏によると、協調フィルタリングの欠点は、リコメンド対象がメジャーで人気の楽曲に偏りがちになってしまうこと。過去の購買パターンをもとに分析するため、データ量の多い人気曲が目立ってしまうのです。「これではリコメンド内容が退屈で予測しやすいものになってしまう」というのがDieleman氏の懸念でした。ユーザーが過去にまだ出会ったことのない新しい曲、もしくは非常にニッチな曲もリコメンドできる必要があります。そのために彼が考えたのが、協調フィルタリングとディープラーニングを組み合わせた手法。ものすごくざっくり説明すると、この手法はリコメンドする曲を選ぶために、・協調フィルタリングなどによってユーザーの好みの楽曲リストを作成・その上で共通点の多い楽曲リストを持つ他のユーザーを抽出・抽出された他のユーザーによる楽曲リストの中から、ユーザーの好みと「似ている」曲を選んでリコメンドするというやり方。この「似ている」曲を判別するために、曲の音声シグナルを解析した上で、ニューラルネットワークによる学習を行っているそう。自分と共通点の多い他のユーザーのプレイリストの中から、まだ自分のプレイリストにない「似ている」曲をリコメンドしてくれるので、未知の曲でありつつ好みの曲である可能性が高いというわけです。