AI活用ブログ

自動運転にも応用される精緻な画像認識技術、「画像セグメンテーション」とは？事例を交えてわかりやすく解説

Incubit Blog Team

2016.12.26

画像分類の種類について

「画像×機械学習」といってもその応用例はたくさんあります。
画像セグメンテーションの特徴を理解するためにも、まずはよく使われているその他の画像分類技術も見ていきましょう。
今回は画像セグメンテーションを含む、こちらの３つを紹介します。

１）画像分類（classification）…”その画像が何なのか”を識別
２）画像検出（detection）…”その画像のどこに何があるのか”を識別
３）画像セグメンテーション(segmentation)…”その画像領域の意味”を識別

１）画像分類（classiification）…”その画像が何なのか”を識別

画像分類では、”その画像が何なのか”カテゴリ分けします。
例えば、様々な寿司ネタの書かれた画像を「これはサーモン、これはいくら、これはとろ、、、」というように一枚一枚分類していく感じになります。

最近AmazonからリリースされたAmazon RekognitionのObject and scene detectionもこの画像分類にあたりますね。

screen-shot-2016-12-18-at-14-10-57
こちらの画像では、対象の画像がCityやDowntown、Metropolisであると分類されています。
この方法では1枚の画像が１つの物体等を映し出していた場合には有効ですが、複数の対象が写っていた場合、それぞれを認識することはできません。
例えば、今机にある複数の物体を写真に撮ってRekognitionにアップロードしてみます。

screen-shot-2016-12-18-at-14-14-58

本来であれば「カップとスマホとボトル」が写っているのですが、Amazon Rekognitionでは画像全体へのラベル付けとしてCupやCoffee Cupが上位に来ています。
これでは、複数の物体が画像に入り込むシーンでは使えないですね。そういった場合には「画像検出（detection）」を活用することになります。

２）画像検出（detection）…”その画像のどこに何があるのか”を識別

detectionと呼ばれる画像検出では、“何があるのか”に加え“どこにあるのか”も識別ができます。
例えば、先程の画像を例にとると、以下のように「コーヒー、ボトル、スマホ」という３つのwhatとwhereが識別できます。

%e3%82%ab%e3%83%a1%e3%83%a9%e3%83%ad%e3%83%bc%e3%83%ab-2700

Facebook上に写真をアップロードすると、顔の部分をタグ付けできるようになっていますが、あの技術も顔を検出する画像検出が使われている例ですね。
Amazon RekognitionにもFace Analysisの機能があったのでこちらの画像も例として載せておきます。

screen-shot-2016-12-18-at-14-22-06

この画像のように、”顔がどこにあるのか？”が顔認識では取得できています。

３）画像セグメンテーション(segmentation)…”その画像領域の意味”を識別

それでは今回のメインである画像セグメンテーションについて見ていきましょう。
Semantic Segmentation と呼ばれる画像セグメンテーションでは、画像全体や画像の一部の検出ではなくピクセル１つひとつに対して、そのピクセルが示す意味をラベル付けしていきます。

画像を見たほうがわかりやすいので実際の画像を見てみましょう。
semantic segmentation
引用：http://jamie.shotton.org/work/research.html

一番左の画像では、”牛(cow)”に加え“草(grass)”も色づけされています。
これまでに紹介した画像検出では牛という物体が4体検出される以上のことはできませんでしたが、Semantic Segmentationでは画像全体がピクセルごとに意味づけされます。

この技術の応用例の１つ、自動車の自動運転があります。自動運転では以下のようにリアルタイムでセグメンテーションが行われます。

引用：http://worldwide.chat/E6gij6IS8n0.video

ファッション領域で画像セグメンテーションを使ってみる。

それでは画像セグメンテーションの精度をみるために、実際に人間が着ている服装をsemantic segmentationで識別してみましょう。ここから少し技術的な話になります。

○アルゴリズム
今回はFully Convolutional Neural Networkを使いSemantic Segmentationを行います。

引用：https://arxiv.org/abs/1411.4038

○データセット
こちらのデータセットを拝借しました。
https://sites.google.com/site/fashionparsing/dataset

screen-shot-2016-12-18-at-15-48-20

こちらのデータ・セットでは、左図のような通常の写真と右図のようなピクセルごとに色付けされた画像のセットが2683組あり、「背景」「Tシャツ」「カバン」「ベルト」「ブレザー」「ブラウス」「コード」「ドレス」「顔」「髪」「帽子」「ジーンズ」「レギンス」「パンツ」「スカーフ」「靴」「シャツ」「肌」「スカート」「靴下」「ストッキング」「サングラス」「セーター」という領域に分けて色付けがされています。

○学習

今回は私たちインキュビット社にあるNvidia GPU TitanXのマシンを使ってTensorFlowで実装を行い、データのうち90%を学習に10%を検証に使いました。
Adam optimizerのモデルを使い、バッチサイズ:50、学習率:10^-5、ドロップ率:0.5をという条件で約10時間かかっています。

○結果
screen-shot-2016-12-18-at-15-50-44

セグメンテーションの精度はまぁまぁなようですが、すこし色が違う部分が有りますね。ブラウスやブレザー、ジーンズやレギンス等、細かな部分を識別しきれていないようです。人間がみても見分けづらい箇所なので、難易度は高いのでしょう。

データセットが100万組ほどあるとジーンズとレギンスといった細かい違いにも対応できるかと思います。しかし今回は2700枚以下のセットしかないので、以下のようにも少し大雑把でシンプルな分類にしてみましょう。

・Tシャツ、かばん、ブレザー、ブラウス、コート、セーター　→　トップス
・顔、帽子、サングラス　→　顔
・ジーンズ、レギンス、パンツ、ショートスカート　→　ボトム
・靴下、ストッキング　→　靴下

screen-shot-2016-12-18-at-15-50-56

今度はかなり正答例と近くなりましたね。
画像セグメンテーションではこのような感じで、学習データを用意しモデルを作成していきます。

■最後に
今回の記事では
・「画像×機械学習」の応用として、画像分類、画像検出、画像セグメンテーションを紹介しました。
・画像セグメンテーションの例として、服装のセグメントのステップを実際のデータを用いてご紹介しました。

Incubitでは、ディープラーニングを用いた画像認識エンジンをオーダーメイドで開発しています。
詳しくは、お問い合わせページよりお気軽にお問い合わせください。

Other blog

2019.01.10

画像認識技術とは？

Incubit Blog Team

2018.12.12

ディープラーニングとは

Incubit Blog Team

2018.11.2

ディープラーニングの実用例

Incubit Blog Team

2017.07.30

2030年にはこうなっている、チャットボット先端開発事例

「2030年には、ありとあらゆる分野でこれくらいのレベルのチャットボットが使える時代になっているのではないか」。AI・人工知能EXPOに登壇した、国立研究開発法人情報通信研究機構（NICT）の鳥澤健太郎氏は、そう言いながら次のような音声でのやり取りを紹介しました。チャットボット「A銀行の定期預金が満期をむかえますね。B国の投資信託が人気のようですが、どうですか？」ユーザー「でもB国の政権が不安定だから危ないんじゃない？」チャットボット「そういう意見もありますが、一方で本日の新聞には面白いことが書かれていますよ。後で送ります」いかがでしょう？事前に決められた対話ルールに沿うだけの現状のチャットボットと比べると、かなりインテリジェントな印象です。「政治が不安定だと、普通は投資信託の価値が下がる」という事象を一般的な知識として持つことができている一方で、その内容と矛盾する「本日の新聞」の内容が「面白い」と判断することもできています。また以下のやりとりのように、保有する知識をベースに、仮説や推論を行うこともできるようになると鳥澤氏はみています。チャットボット「C社様向けの開発の件、Dアルゴリズムで効率化できそうです。関係する論文を送っておきます」ユーザー「了解。開発チーム全員に送っておいて」ユーザーが携わっている「C社様向けの開発」と「Dアルゴリズム」の内容をそれぞれ理解した上で、独立して存在している2つが関連しそうだという仮説を導きだすことができています。「膨大なテキスト、つまりビッグデータを解析した上で多くの知識を持っていないと、このようなことはできない」と鳥澤氏は語ります。次世代のボット開発に向けた取り組みこうしたインテリジェントなチャットボットの実現に向けて、鳥澤氏らが開発したのが「WISDOMちゃん」という音声型チャットボット。裏側のシステムには、すでに一般公開されているWisdom Xという大規模Web情報分析システムを採用しています。Web上にあがっている約40億ページ分の情報を知識として持ち、ユーザーの様々な質問に答えることができるといいます。WISDOMちゃんはまだ着想してから約10カ月。当日公開されたデモでのやり取りは、とてもスムーズなものでした。まだまだ研究開発の途上で、「頓珍漢な返事をすることもある」といいますが、より人間らしいやり取りの実現に向けて、従来のチャットボットとは異なる仕組みが導入されています。より有益な会話の実現に向けた仕組みとは？現状のチャットボットは対話のデータから学習することで、いわばそれを「マネすること」だと鳥澤氏はいいます。「一時はみんながこの仕組みで挑戦したが、しばらく経つと悲鳴が聞こえてきた。何を言っても相槌しか打たない。これだけでは面白いことはできない」（鳥澤氏）。つまりこういうことです。ユーザーとのやり取りの中には、たとえば「iPS細胞ってすごいね」といった意図が分かりにくい問いかけも多数。従来のボットでは、こうしたあいまいな問いかけの意図をうまく理解できず、単なる相槌や頓珍漢や返事に終始しがちでした。そこで鳥澤氏らは、あいまいなユーザー入力が来た場合、まずそれをシステムが理解できる「質問」に翻訳することで、より自然な応答を返す仕組みを作りました。たとえば以下がその一例です。・ユーザー：「iPS細胞ってすごいね」・Wisdom X：システム内部で「iPS細胞で何ができる？」という「質問」に変換・Wisdom X：iPS細胞によって可能なことのリストの中から、面白そうな応答をピックアップして出力「たとえばある端末や家電製品ってすごいよね、という発言があったとして、それに対して具体的に何ができるという返事が続くというのは、実際の対話でも割と自然な流れなのではないか」（鳥澤氏）。多様な会話、「質問」の数を増やすことで実現上記で育成した「質問」は、「iPS細胞で何ができるの？」というものでしたが、生成できる「質問」の種類が多ければ多いほど、様々な対話に対応できることになるというわけです。たとえばユーザーからの問いかけとして、「日経新聞に『南鳥島沖に球状レアメタル』という記事が出ているね」というものがあったとします。受験生向けの対話システムであれば、・「質問」として「南鳥島はどこにある」を生成・応答として「南鳥島は日本最東端にあります。覚えておきましょう」を返信またビジネスマン向けの何らかのシステムであれば、・「質問」として「レアメタルは何に使う？」「誰が（レアメタルを使う）ハイブリッド車を製造する？」を生成・応答として「自動車会社に影響があるかもしれません」を返信ただ育成した複数の「質問」の中から、適切な「質問」を選ぶという機能を実装するには、まだ至っていないとのこと。今後の課題こうした仕組みのチャットボットが目指す未来像は、ユーザーの目的を理解した上で、有益な雑談を行うというものですが、課題もあるといいます。まず前提条件として、ユーザー自身やその目的に関する知識を大量に持たせる必要があるということ（適切なビッグデータの必要性）。またそうしてユーザー特有の情報や状況に応じて返答をするということは、一種の疑似的な人格を持つ必要があるといいます。たとえば一例として挙げられたのがドラえもん。「のび太を真人間にする」という目的を持ち、のび太に関する知識を山ほど持っていることで、例のドラえもんの「人格」が成立しているといいます。そしてそのような疑似的な人格を、ビジネスや介護など様々な目的に応じて適切にプログラムすることは可能なのか？という点も懸念とのこと。さらに大量の学習データの構築や、基礎的なテキスト解析の精度を向上させることも必須になってくるといいます。ユーザーに寄り添うインテリジェントなチャットボットというのは、大きな可能性がありつつも、まだまだ課題も多そうです。

Incubit Blog Team

2017.08.18

そもそもAIで何ができるのか？実現可能な7つの成果

「AI（人工知能）を活用してビジネスで成果をあげよう」という動きがますます高まってきました。しかし一方で「AIを魔法の杖だと誤解した人たちが、ムチャな要望を出してくる」というようなボヤキも、またよく耳にする話です。つまりAI関連の技術によって、何ができて何ができないのか？という点があいまいなままに、期待だけが先行しがちというのが大方の現状といえそうです。そんな中でちょっと便利な図をみつけました（記事最上部。オリジナルをもとにAI4U編集部で作成）。「AIによる７つの成果」（Seven spectrum of outcomes for AI）と題された図。その名の通り、AIによって解決できる成果、つまりユーザーニーズを７段階で整理しています。「認知」や「通知」のように現時点の技術レベルで可能な段階もあれば、人の判断を手助けする「環境認知」といったまだ難しいレベルもあります。AI事業を検討する際に、できることとできないことの整理に便利そうです。それぞれの段階の説明はこちら。１．認知AIによって可能な項目の中で、最も初歩的な段階。画像や音声、感情といったデータをもとに、ユーザーに関する何らかのパターンを読み取る段階。２．通知ユーザーが知る必要がある情報をアラートやリマインダーといった形で通知。「適切な情報」を「適切なタイミング」で「適切なユーザー」に届けることで、唐突感なく自然に受け取ってもらうことを目指す。そのために必要なユーザーの属性や好みを把握するために地理データや天気、心拍数、感情など、あらゆるデータの活用を試みる。３．提案・リコメンドサイトのアクセスデータや商品の購買情報といった過去の行動データをもとに、ユーザーへのリコメンドを実施。そのリコメンド内容もマシーンラーニング（機械学習）などによって継続的に改善することができる。つまり少数ではなくマスのユーザー群に対して、コンテンツやマーケティング施策のパーソナライゼーションが可能になる段階。４．自動化ユーザーが抱えるタスクを自動で肩代わりできる段階。さらに機械学習によって継続的な改善やチューニングを実施できる。５．予測過去に蓄積されたデータをもとに、機械学習による予測ができる段階。６．事前対処・予防起こり得る問題を予測し、潜在的なリスクを回避できる段階。７．環境認知人がすべきことを判断する際の手助けができる段階。

Incubit Blog Team

2017.05.22

IBMビッグデータ専門家のいう「Hadoopの人気減が著しい」はどういうことか？

「2016年のビッグデータ界隈におけるHadoopの人気減が著しい。私の想定以上だ」。IBMでビッグデータエヴァンジェリストを務めるJames Kobielus氏が、2016年のビッグデータ界隈を振り返って述べた言葉が話題になりました。KDnuggetsというIT系メディアサイトに掲載されたこの記事にて、Kobielus氏はさらに次のように話しています。「（Hadoopの中核となる分散処理フレームワークの）MapReduceや（Hadoop上の分散データベースの）HBase、さらに（分散処理ファイルシステムの）HDFSでさえ、データサイエンティストにとって重要ではなくなってくるだろう」。つまりHadoopの3つの基礎構成要素のいずれについても、活用が減ってくるというのです。一時はビッグデータ処理の本命として、もてはやされたHadoop。Kobielus氏によるこのコメントを受けて、「Hadoopはダメだ」派と「いや、そんなことはない」派のそれぞれが、相次いでブログ記事を発信する事態にもなりました。実際のところHadoopの活用状況はどうなのか？Kobielus氏による発言の真意は別として、ちょっと整理してみました。Hadoopは必要、ごく一部の企業にとってはKobielus氏のコメントを受けて書かれた記事の中で、特に反響の大きかったのがこちら。Innovation EnterpriseというBtoB向けITメディアで編集長を務めるGeorge Hill氏によるもの。「Hadoopはダメだ」派です。Hadoopに関する調査データなどを示した上で、Hadoopを使ったビッグデータ処理への需要はあるにはあるが、企業がうまく使いこなせていない、と結論づけています。具体的には、・Hadoop関連の求人は2016年までの18か月間で43％増えているが、使いこなせる技術者が育っていない・そもそもHadoopが必要になるだけのデータ量を抱える企業はごく一部。多くが2～10TB程度の少ないデータ量でHadoopを使おうとしている。とのこと。Richard Jacksonというビッグデータ領域のディレクターも、この意見に加勢しています。彼によると、GoogleやFacebook、Yahooのような企業でない限り、そもそもHadoopを使う必要性もなければ、扱える専門家の確保も難しいだろうとのこと。イギリスで活動するJackson氏は、企業が保有するデータ量の傾向について、次のように語っています。「アメリカのテック企業は、世界の他の企業も自分たちと同様の規模のデータを有すると勘違いしている。過去数年でわれわれが関わったヨーロッパの多くの企業は、せいぜい1～20TB規模。100TB以上のデータを持っているケースはめったにない」。こういった意見に対して、「大企業に限れば、銀行や通信、製造、保険などの分野で導入が急増している！」という反対派の記事もあったりします。ただよくよく著者の経歴を見ると、主要Hadoopベンダーの一つHortonworksの中の人なので、ちょっとポジショントークっぽいなとも思ったり。少なくともこれら現場レベルの人たちによる記事だけをみると、こういうことのようです。つまり大量のデータを抱えており、かつHadoopを使いこなせるだけの人的・金銭的リソースがある企業なら使う価値があるが、そんなのはごく一部に過ぎないと。この辺りは調査会社が出す有料レポートとか買えば、さらに数字でも検証できるんでしょうけど、どれもかなり高いのでちょっと割愛。現場レベルの声だけでなく、もう少し違ったマクロな視点でも見てみましょう。もしHadoopの人気が急減しているのなら、主要なHadoopベンダーの動向にも影響しているはず。そこでHadoop関連製品の大手、ClouderaとHortonworksの2社の動きをみてみました。Hadoopブランドからの脱皮色々調べる中で出てきたのは、ビッグデータの処理が従来のオンプレミスからクラウドに移行する流れが出てきているほか、AIの活用も増えてきていることで、2つとの相性が必ずしも良くないと言われるHadoopの存在感が徐々に薄れてきているということ。さらにそうした中で、ClouderaとHortonworksが、これまで前面に打ち出してきたHadoop企業というブランドから脱皮しようとしている点です。順を追って説明していきましょう。調査大手のForresterは今年3月、「The cloud is disrupting Hadoop」（Hadoopを駆逐するクラウド化の流れ）という記事を発信。この中で著者のBrian Hopkins氏は、次のように述べています。「より多くの企業がオンプレミスでHadoopを構築する複雑さを避け、クラウド化を進めている。そうなるにつれ彼らがHadoop以外の選択肢を探す流れも進むだろう。つまりHadoopベンダーは、収益源をオンプレミスからクラウドに移そうとするだろう」。しかしそれは難しいとHopkins氏は考えているようです。なぜなら保有データのセキュリティやガバナンスといった現状のHadoopの利点とされる項目は、どれもオンプレミスだからこそ。クラウド化とは矛盾してしまいます。Hopkins氏はHadoopベンダーの関係者による話として、「もしわれわれがクラウドを本当に理解していたら、Hadoopは今のような仕組みにはなっていなかっただろう」というコメントも紹介しています。こうした動きを踏まえて、Hopkins氏はこう予測しています。ビッグデータ処理のクラウド化が進む中で、HadoopはAmazonやGoogle、IBMといったクラウド勢によるサービスに対抗できない。それに伴いClouderaやHortonworksなどのベンダーが、Hadoopブランドから離れる動きが次の2～3年で加速するだろうと。クラウド化とAI化、どちらも難しく少なくとも2019年までにはビッグデータ処理の大半がクラウド化する、という声もみられますが、そうした中で、Hadoopベンダーがブランディングを変えようとしている、という意見は先のHopkins氏だけではありません。ITジャーナリストのArik Hesseldahl氏はCIO誌の記事にて、Clouderaがバズワードとしての旬が過ぎたHadoopから、機械学習プラットフォームとして脱皮しようとしていると主張。4月にニューヨーク証券取引所で上場を果たしたばかりの同社について、こう触れています。「150ページに及ぶS-1上場申請書の中で、Clouderaは主要事業である”Hadoop”について14回しか触れていない。一方で”machine learning”という言葉は70回以上も繰り返している」。確かにS-1上場申請書の冒頭で、自社を「データマネジメント及び機械学習、アナリティクスのプラットフォーム」と言及したのをはじめ、繰り返しこの単語を登場させています。「しかしClouderaの主要事業は、疑いの余地なく依然としてHadoopだ」（Hesseldahl氏）。S-1上場申請書には、キーワード”machine learning”が頻出しているまた競合のHortonworksも同様の動きをみせているようです。4月3日付のForbes誌による記事の中で、2016年度の決算発表時の同社によるコメントが紹介されています。「人工知能や機械学習など、ビッグデータ市場のトレンドとなる新技術への研究開発投資を一層強化していく」。両社によるAI技術強化の取り組みはうまくいくのでしょうか？先のForbes誌の記事を書いたGil Press氏は、そうは考えていないようです。ForresterのHopkins氏による次のコメントを引用しています。「Hadoopがクラウド向けに設計されていないのと同様に、ディープラーニングに求められる行列演算にも向いてない」。クラウド勢がAIの活用に適した環境を整えている中で、Hadoopベンダーがこうした流れにキャッチアップするのは難しいといいます。なぜHadoopが機械学習に最適ではないのかという点については、この記事とかこの記事とかが分かりやすかったですが、あまり技術的な方面に立ち入るとウソ書きそうなので割愛。ここまでの流れをまとめると、・Hadoopの人気が衰えてきているとの声が出ている・そもそも必要性のない企業が導入するケースが目立つほか、必要性があっても技術者の確保が難しい、という現場の声がある・またマクロ的な流れとして、ビッグデータ界隈がクラウド化・AI化に進んでいるが、Hadoopがこの2つに適応するのは技術的な観点から難しいということになります。

Incubit Blog Team

2017.02.26

Spotifyって機械学習をどう活用してるの？⇒元社員がQuoraで回答

Incubit Blog Team

2017.03.27

こんな使い方もあった、チャットボットのユニークな活用事例集

Incubit Blog Team

自動運転にも応用される精緻な画像認識技術、「画像セグメンテーション」とは？事例を交えてわかりやすく解説

目次

画像分類の種類について

１）画像分類（classiification）…”その画像が何なのか”を識別

２）画像検出（detection）…”その画像のどこに何があるのか”を識別

３）画像セグメンテーション(segmentation)…”その画像領域の意味”を識別

ファッション領域で画像セグメンテーションを使ってみる。

Other blog