Deep Insider の Tutor コーナー
>>  Deep Insider は本サイトからスピンオフした姉妹サイトです。よろしく! 
連載:Intel Perceptual Computing SDK(現:RealSense SDK)入門(1)

連載:Intel Perceptual Computing SDK(現:RealSense SDK)入門(1)

Intel Perceptual Computing(PerC) SDKの全体像

2014年1月14日

Intel Perceptual Computing SDKの概要と、それを利用したアプリの開発方法について解説する連載スタート。今回はセンサーモジュールの仕様や、SDKの概要、Intel社の3Dセンシング技術などについて紹介。

Natural Software 中村 薫
  • このエントリーをはてなブックマークに追加

 本連載では、「Intel Perceptual Computing」(通称「PerC」、現在は「Intel RealSense」)という新デバイスのSDKについて解説する。Intel Perceptual Computing SDKは2014年1月のInternational CESでIntel RealSense(リアルセンス)テクノロジーとしてお披露目された。現在は過渡期にあるため、名称など今後変更される可能性はあるが、大きな流れは変わらないため、いち早くキャッチアップする機会と考えていただければ幸いだ。

まえがき

 本連載ではIntel Perceptual Computing SDKの概要、Intel Perceptual Computing SDKを利用したアプリケーションの開発方法について解説する。

 なお2014年1月8日現在、SDKは「Intel Perceptual Computing SDK」、3Dカメラは「Creative Interactive Gesture Camera」となっているが、それぞれ「Intel RealSense ~」に名称が変更される可能性があるので、適宜読み替えてほしい。

タッチインターフェースの先へ

 3Dセンシングや3Dカメラというとマイクロソフト社のKinectが有名だが、Intel社もコンピューターへ3Dセンシング技術などを取り入れる動きを進めている。Intel社はコンピューターに画像認識や音声認識、ジェスチャー認識といったいわば目や耳になる機能を搭載しようとしている。これによって、より自然に人とコンピューターがつながるようになるのだろう。現在「NUI(Natural User Interface)」と呼ばれているインターフェースをもう一段上の次元に押し上げる材料になる。

 現在の主流となっているタッチインターフェースや、Kinectなどのジェスチャーインターフェースに加えて、画像処理、音声処理を付加することで、より能動的にコンピューターが動作するのではないかと筆者は考えている。詳しくは後述するが、今後、これらのセンサーが内蔵化される動きがある。内蔵化されればユーザーが増え、ソフトウェアもより多くの人に活用してもらえるようになるだろう。

構成要素

 センサーモジュールハードウェアである「Creative Interactive Gesture Camera」および、それを制御するソフトウェアである「Intel Perceptual Computing SDK」から構成される。とはいえ「Creative Interactive Gesture Camera」がなくとも、「Intel Perceptual Computing SDK」を利用することもできる。詳しくは後述する。

Creative Interactive Gesture Cameraの概要

 Creative Interactive Gesture Camera(次の写真)は、Softkinetic社のDS325と互換のセンサーである。SoftKinetic社は早くから3Dカメラを発売しており、Kinect v2でも搭載されたTOF(Time-of-Flight)方式の距離センシング技術を利用している。TOF方式とは、赤外線での距離測定において赤外線を照射して帰ってくるまでの時間を測定する方法だ。時間で測定するため、距離による精度のずれが少なく、近距離から遠距離まで高精度に測定できる(現在のKinect(v1)は「Light Coding」と呼ばれる方式で、ランダムなドットパターンを照射しゆがみを計測する方法であり、距離に対しての制限が多い)。

 他にも720pの解像度を持つカラーカメラ、マイクを搭載し、画像処理、音声処理、ジェスチャー認識を1台でカバーできるようになっている。

Creative Interactive Gesture Camera

 Creative Interactive Gesture Cameraの主な仕様は、次の通りだ。

項目 仕様
Colorカメラ解像度 1280x720(720p)
Depthカメラ解像度 320x240(QVGA)
Depthカメラセンシング方式TOF(Time-of-Flight)
距離認識範囲 15cm-100cm
フレームレート 30 fps
マイク デュアルアレイマイク
電源 USBバスパワー
Creative Interactive Gesture Cameraの主な仕様

 距離認識範囲が15~100cmと近距離を認識することに特化していることが分かるだろう。

 Colorカメラは720pの解像度を持ち、画像も非常にきれいである。そのためデジタルサイネージなど、大きな表示装置に出力する場合にもこのカメラのみで対応が可能だ(他のセンサーデバイスの場合、Colorカメラの解像度が低いため、別にWebカメラを利用する場合がある)。

 現行のKinect for Windowsと大きさを比較すると、次の写真のようになる。

Creative Interactive Gesture CameraとKinect for Windowsの大きさ比較

Intel Perceptual Computing SDKの概要

 Intel Perceptual Computing SDKは無償で利用できるソフトウェア開発キット(SDK)であり、Windowsでのみ利用できる。Creative Interactive Gesture Cameraを組み合わせることで全ての機能を利用できるが、距離カメラを使わない機能、具体的には画像処理機能はWebカメラ、音声処理機能は一般的なマイクでの利用も可能である。言い換えれば、この2つを利用する場合にはIntel Perceptual Computing SDKをインストールすることで、今すぐに開発を行うことも可能である。音声処理については「Dragon Assistant」と呼ばれるエンジンを利用しており、日本語を含む9カ国語に対応している。

 Intel Perceptual Computing SDKの主な機能は次の通りだ。なお、Colorカメラの項目はWebカメラ、音声機能の項目は一般的なマイクでも利用できる。Depthカメラの項目のみCreative Interactive Gesture Cameraが必要となる。

項目 機能
Colorカメラ Colorカメラ画像の取得
顔の位置検出
顔の部位(目、鼻、口)検出
顔認識(識別)
Depthカメラ Depthカメラデータの取得
手および指の位置検出
手および指のポーズ検出
手および指のジェスチャー検出
背景除去
音声機能 音声コマンド認識
音声の文字起こし(音声から文字への変換)
音声合成(文字から音声データへの変換)
Creative Interactive Gesture Cameraの主な仕様

 特徴として顔検出および音声関連の機能がある。顔の検出はColorカメラからの画像処理なので、精度についてはDepthを使う場合に比べるとそれなりではあるが、非常に高速であるため利用用途は広いだろう。

 また、音声についても無償で文字起こしの機能を使えるライブラリは少なく、Intel社からこの機能が提供されていることは非常に有意義なことであろう。また音声合成も標準搭載されているため、次のような機能を簡単に実装できる。

音声変換機能(音声翻訳など)の処理フロー
音声変換機能(音声翻訳など)の処理フロー

Intel Perceptual Computing Challenge

 2013年の6月~9月にかけて、世界規模で「Intel Perceptual Computing Challenge」というIntel Perceptual Computing SDKのアプリケーションコンテストが開催された。世界中から数千の応募があった中で優勝したチームが日本の「しくみデザイン」社だ。「KAGURA」と呼ばれるそのアプリケーションは、Perceptual Computing SDKの機能をフルに利用し、さらに独自の動きを組み合わせた素晴らしいアプリケーションだ。ぜひ一度、この動画をご覧いただきたい。

しくみデザイン社のアプリケーション「KAGURA」

 「しくみデザイン」代表の中村氏はCES2014(米国ラスベガスで1/6~9で開催)のIntel社の発表においてもKAGURAのデモを披露している(次の写真)。

CES2014でのデモの様子(写真提供: しくみデザイン中村氏)

ロードマップ

 今後の重要なロードマップとしてPCへの内蔵化が発表されている。2014年にUltrabookに内蔵する予定とのことであったが、CESで実際に3Dセンサー(RealSense 3Dカメラ)を内蔵したPCが数多く展示されていた(次の写真を参照。それらのPCは一般にはまだ公開されてはいないようだ)。

3Dセンサーが内蔵されたWindows PC(写真提供: しくみデザイン中村氏)

上部にセンサーが埋め込まれている。

 現状の非接触ユーザーインターフェースは、PCの他にセンサー機器を別途購入する必要があった。内蔵されればユーザーは自然とセンサーを所持することとなり、アプリケーションを利用できるユーザーが爆発的に広がり、活用の幅やアプリケーションの幅が大きく広がる可能性がある。

 さらに、モジュールが小型化されればスマートフォンなどへも展開されるだろう。過去に携帯電話にカメラが搭載され、現在、カメラはスマートフォンに必須の機能となった。このスマートフォンとカメラの関係を考えると、同じことが3Dカメラに対しても起こるのではないかと筆者は非常に楽しみにしている。

まとめ

 今回はIntel Perceptual Computing SDKおよびIntel社の3Dセンシング技術などについて解説した。次回はIntel Perceptual Computing SDKの概要および開発環境の構築について解説する。

連載:Intel Perceptual Computing SDK(現:RealSense SDK)入門(1)
1. 【現在、表示中】≫ Intel Perceptual Computing(PerC) SDKの全体像

Intel Perceptual Computing SDKの概要と、それを利用したアプリの開発方法について解説する連載スタート。今回はセンサーモジュールの仕様や、SDKの概要、Intel社の3Dセンシング技術などについて紹介。

連載:Intel Perceptual Computing SDK(現:RealSense SDK)入門(1)
2. Intel Perceptual Computing(PerC) SDKの概要と環境構築

PerC SDKの開発環境やアーキテクチャ、インストール方法について解説。またSDKに含まれているサンプルを紹介することで、PerCが提供する機能について見ていく。

連載:Intel Perceptual Computing SDK(現:RealSense SDK)入門(1)
3. Colorカメラを使って顔を検出する

Intel Perceptual Computing SDKを使ったアプリの開発方法を解説。Webカメラでも行える顔検出を実装してみよう。

連載:Intel Perceptual Computing SDK(現:RealSense SDK)入門(1)
4. Depthカメラを使って手指を検出する

PerC SDKの最大の特長である「手指の検出」を解説。Depthカメラのデータを取得する方法も説明する。

連載:Intel Perceptual Computing SDK(現:RealSense SDK)入門(1)
5. 無償で簡単にアプリに組み込める「音声認識&音声合成」

マイクに向かってしゃべると音声をテキスト化する「音声認識」や、テキストを音声データに変換する「音声合成」をPC上のアプリで実現したい場合、無償のPerC SDKが便利だ。その開発方法を解説。

サイトからのお知らせ

Twitterでつぶやこう!