ミニ特集「知能システム学の博士論文」Attribute-Aware Semantic Segmentation from an In-vehicle Camera(車載カメラ映像からの属性付きセマンティックセグメンテーション)(Mahmud Dwi Sulistiyo)
知能システム学専攻准教授 出口 大輔
近年、自動運転の必要性高まっている一方で、コンピュータビジョンや機械学習の分野ではさまざまな技術が急速に発展しています。この中で、環境認識を行う上で最も重要な技術の一つとして、セマンティックセグメンテーションが注目されています。これは、カメラで捉えた画像中の物体領域を画素レベルで特定する技術です。しかし、従来のセマンティックセグメンテーションのタスクでは、物体が何であるかを特定するだけで、それらの物体の属性(性別、年齢、体向き、服装、等)について説明することはできません。そのため、交通シーンの理解能力を向上させるためには、セマンティックセグメンテーションと属性認識タスクを同時に組み合わせる必要があります。この論文では、その課題に応えるために、図1に示すような車載カメラで撮影した画像に対する属性認識セマンティックセグメンテーションを紹介し、十分な実験と比較分析を通じて提案手法の有効性を示しています。
図1 属性認識セマンティックセグメンテーションの例
この論文の主な目的は、セマンティックセグメンテーションの質的なパフォーマンスを改善することです。この研究は、歩行者の体の向きを対象物体の属性とし、他の物体カテゴリに対してもセマンティックセグメンテーションを行います。この論文は、属性認識セマンティックセグメンテーションを実現するための3つの重要な要素、つまり、十分なデータセットの欠如、対象の知識を利用しない一般的な方法(ドメインフリーアプローチ)、および対象特有の知識を活用する方法(ドメインスペシフィックアプローチ)を解決します。それぞれの研究トピックは論文中の個々の章で議論しています。
最初に取り組む課題は、十分な規模のデータセットの構築です。従来のセマンティックセグメンテーションタスクのための数多くのデータセットが公開されていますが、新たに導入された属性認識セマンティックセグメンテーションタスクに対しては、これらのデータセットは十分ではありません。この論文では、歩行者の4つの体の向きに対応する追加の属性ラベルを持つCityscapesデータセットの拡張として、新しいデータセット「CityWalks」を紹介します。CityWalksデータセットの目的は、属性認識セマンティックセグメンテーションのための深層学習ベースのモデル開発において、高品質なトレーニングと検証セットを提供することです。
次に取り組むべき課題は、データドメインに依存しない、一般の対象に対して適用可能であり、パフォーマンスが高い属性認識セマンティックセグメンテーション手法を開発することです。この問題を解決するために、ドメインフリーアプローチを提案しています。このアプローチでは、属性認識の損失関数がドメインに依存しない計算方法を導入しています。これは、物体と属性のクラスを同じ枠組みで扱うことができる統一された式を提案し、任意の基本モデルに対して適用可能な方法となっていす。様々な条件で実験を行い、その結果、提案された方法がベースラインの方法を上回る成功を収めたことが示されました。
図2 ドメインフリーアプリーチによる属性認識セマンティックセグメンテーションの結果例
しかし、ドメインフリーアプローチには良い利点があるにもかかわらず、この方法では、物体レベルで歩行者の体の向きを一意に定めることができないなど、曖昧な属性を取り扱うのが困難です。この問題に対処するために、対象物体と属性、および入力データドメインの特性に焦点を当てたドメインスペシフィックアプローチを提案しています。具体的には、マルチタスク学習に基づいたカスタムモデルである「ColAtt-Net」を提案しています。このモデルは、物体カテゴリのピクセル単位の分類と歩行者の体の向きのカラム単位の予測を別々に行い、それらを統合することで属性認識セマンティックセグメンテーションを行います。提案されたドメインスペシフィックな方法により、歩行者の向きの予測における曖昧さを減らすことが可能となり、いくつかの実験でかなり良い結果を示しました。
この論文で述べている内容は、車載カメラからの属性認識セマンティックセグメンテーションを解決する際に解くべき課題の最初の一歩を示しています。このトピックはこの論文で初めて考案されたものなので、さらなる発展的な課題やアイデアが今後登場するでしょう。