インド工科大学マドラス校(IIT-M)は10月29日、同学の研究チームが人工ニューラルネットワークを用いて、人間がfar(遠い)やnear(近い)といった空間前置詞を使用する際に、視覚情報とどのように関係しているのかについて解析を行った結果を発表した。
バーチャル・リアリティ(VR)やナビゲーションシステム、メタバースなどユーザーと視覚空間を共有するアプリケーションの普及に伴い、より没入的な体験を生み出すための研究が発展している。その1つが人間がどのように空間を分類し、言語化しているのか理解することである。ヒトは視覚認識や運動などを通じて空間を「遠い」や「近い」といった異なる空間前置詞のカテゴリに分類しているが、コンピュータが同様の分類をすることは現状難しい。
本研究ではIIT-M人文社会科学部のクリシュナ・ラジS R(Krishna Raj S R)氏とアニンディタ・サフー(Anindita Sahoo)教授、生物工学部のスリニヴァーサ・チャクラヴァルシー V(Srinivasa Chakravarthy V)教授により、畳み込みニューラルネットワーク(CNN)を訓練し、カメラの自心視点からの設定された距離閾値に基づいて、シーン内の物体を主観的に遠いか近いかを分類した。
研究には3D空間に配置された1つの物体から成るデータセットが用いられた。物体の形、大きさ、色は様々であり、CNNは、設定された閾値に基づいて、画像内の物体を遠いか近いかを分類するように学習されている。研究では平面に接地した物体と平面に非接地の物体の2つのシナリオで実験が進められ、カメラの配置の影響も分析された。その結果、CNNが物体を判断するためには、大きさ、色、形が重要な要素であることがわかった。また、分類性能は接地されたケースで高く、カメラが十分な高さにある場合、接地された物体に対して遠いか近いかの分類がよく定義されることを実証した。また、接地された物体を判断する性能は高いが、接地されていない物体ではそうではないことがわかった。
サイエンスポータルアジアパシフィック編集部