spacelyのブログ

Spacely Engineer's Blog

家具を撮影した1枚の画像から3D形状を復元する【後編】〜ShaRFの実データへの適用と複数枚画像への拡張〜

はじめに

スペースリーでインターンをしている大隣嵩です。 前回は、家具を撮影した1枚の画像から3D形状復元するタスクに取り組んだShaRF[1]の説明と、既存データセットを用いた実験を紹介しました。 この記事では、ShaRFを実データに適用した実験と、推論時に複数枚の画像を使用した実験を紹介します。

実データを用いた実験

実データに対してShaRFを実行するためには、3D復元対象オブジェクト部分の画像の切り出し、カメラ位置や家具のバウンディングボックスのアノテーション、シルエット画像の作成など事前にいくつかのデータを作成する必要があります。
まずこれらの事前のデータ作成について簡単に紹介した後に、実験結果を示します。今回は、左右前後が対称で3D復元の難易度が比較的低いテーブルを主な対象として実験を行いました。

パノラマ画像からの透視図画像の切り出し

スペースリーのサービスでは主にパノラマ画像を扱うため、ShaRFで3D復元を行うためにパノラマ画像から3D復元の対象となる家具が写っている部分の透視図画像を任意のFoVを設定して切り出します。
また、推論実行時にカメラの内部・外部パラメータも必要になるので、透視図画像を切り出す際に計算します。

図1: 左:パノラマ画像、右:切り出した透視図画像

同様にして、図2のようにパノラマ画像から透視図画像を切り出し、実験に使用しました。

図2: 実験に用いた透視投影画像。

家具の3Dバウンディングボックスアノテーション

ShaRFの実行には、対象オブジェクトの3Dバウンディングボックスが必要です。 弊社で提供している3Dバウンディングボックスによる簡易的な家具3D化機能を使って、実験用の家具画像に対してアノテーションデータを作成しました。

家具のシルエット画像

対象オブジェクトのシルエット画像の作成には、セマンティックセグメンテーションを用いました。
今回の実験ではセグメンテーション推定の精度の影響を軽減するために、セグメンテーションのアノテーションデータを用いました。

実験結果

これらの画像を用いて推論した結果を図3に示します。

図3: 実データでの推論結果。左からGround Truth RGB画像、Ground Truth シルエット画像、推論したシルエット画像、出力されたメッシュ。

図3より、シルエット画像をGround Truthに近づけることに成功していますが、メッシュの出力がうまくいかない場合があります。カメラパラメータのアノテーション時の誤差が原因だと考えています。

複数枚への拡張

ShaRFは推論時に画像1枚を用いますが、これを複数枚に拡張して、精度が向上するか簡易な実験を行いました。 Pix3D[2]の椅子の3DモデルとBlenderを使って作成したデータを用いました。1枚の画像を用いて推論した場合の結果を図4に示します。

図4: 1枚の画像での推論結果。左からGround Truth RGB画像、Ground Truth シルエット画像、推論したシルエット画像、出力されたメッシュ。

図4に示した椅子を前方・後方から撮影した画像を使って2枚の画像から推論した場合の結果を図5に示します。

図5: 2枚の画像での推論結果。左からGround Truth RGB画像、Ground Truth シルエット画像、推論したシルエット画像、出力されたメッシュ。

1枚での推論、2枚での推論で共に、シルエット画像をGround Truthに近づけることに成功していますが、複数枚を用いることで、1枚の画像で生じていた曖昧性が解消され、よりGround Truthに近いメッシュが出力できていることがわかります。

最後に

1枚の画像から高精度なオブジェクト3D復元を可能としたShaRFについて、実データを用いた実験と、複数枚へ拡張した実験を紹介しました。この手法により、少数画像から分布外のデータに対して、高精度な3次元復元が可能なことが分かりましたが、(i) アノテーションの誤差に弱い、(ii) 高度なアノテーションが必要などいくつかの制限があります。今後は、これらの問題を解決するために、カメラパラメータも推論時に最適化したり、色付きのメッシュを出力するためにRadiance Fieldsと組み合わせたり、より高解像度なメッシュ出力のためにSDFへの拡張などを検討したいです。

参考文献

[1] Konstantinos Rematas, Ricardo Martin-Brualla and Vittorio Ferrari. Sharf: Shape-conditioned Radiance Fields from a Single View. In ICML, 2021.
[2] Xingyuan Sun, Jiajun Wu, Xiuming Zhang, Zhoutong Zhang, Chengkai Zhang, Tianfan Xue, Joshua B. Tenenbaum and William T. Freeman. Pix3D: Dataset and Methods for Single-Image 3D Shape Modeling. In CVPR, 2018.