Stable Diffusion Inpaintingを活用した家具消し機能の開発

はじめに

スペースリーの研究開発チームでエンジニアをしているLUOです。この記事では、弊社で新たに開発している家具消しサービスについて紹介します。

弊社は空間データプラットフォームを提供しており、不動産VR内覧サービスや研修向けVRサービスなど、実写の360°画像や動画をコンテンツとするサービスを展開しています。今回開発した家具消し機能は、ユーザーが部屋の画像から家具を取り除いて、空間本来の姿を確認できるサービスです。引越し検討時に「家具がない状態の空間を確認したい」といったニーズを満たせる、実用的な機能を目指しています。

家具消しデモ

プロジェクト概要

課題と背景

不動産内覧において、居住中の部屋の家具が置かれたままでは空間の本来の広さを把握することが困難です。特に弊社のサービスでは、エンドユーザーが実際の空間サイズや家具を置いた時をイメージしづらいという課題がありました。

この課題を解決するため、AIを活用した家具消し機能の開発に着手しました。ユーザーが簡単な操作で家具を消し、空間本来の姿を確認できるサービスの実現を目指しています。

技術選択の背景

近年のStable Diffusion技術の進歩とInpaintingタスクの発展に着目し、弊社が保有する大量の空間データセットを活用したファインチューニングアプローチを採用しました。

Stable Diffusionの課題と対策

一般的なStable Diffusionモデルは、画像に要素を追加することは得意ですが、自然な空虚感を表現しながら要素を除去することは苦手です。特に以下のような問題が頻繁に発生します:

  • ハルシネーション(幻覚): 存在しない家具や装飾品が新たに生成される

    • ハルシネーション
  • 床材・壁面の不連続性: 除去範囲の境界で質感や模様が不自然に変化する、また、ユーザーが手動で作成するマスク領域は完璧ではなく、おおまかな範囲指定になることが多いという実用上の課題もありました。

    • 部分のマスク

データセット構築

独自データセット作成戦略

弊社が保有する大量の空室画像と家具配置済み画像を活用し、以下のプロセスでトレーニングデータを構築しました:

  1. 空室画像をベースとした家具追加: 空室状態の部屋画像に対して、複数のスキームを用いてマスク画像を生成し、そのマスク領域内に3Dレンダリング技術やオブジェクト合成を使って様々な家具を配置。この逆向きのアプローチにより、除去後の「正解」となる空室状態を確実に把握できる

    • 合成データのflow
  2. 不完全マスク生成: 実際のユーザー操作を模倣した、意図的に不正確なマスク領域を生成。これによりファインチューニングプロセスがより堅牢(robust)になり、実際の使用環境でのマスク品質のばらつきに対応可能

    • 不完全マスク

この手法により、「家具がある状態→家具がない状態」への変換を学習できる大規模データセットを構築しました。 このプロセスを通じて、推論時には大きめのマスク領域を使用することがより適切であることも判明し、ユーザーには少し大きめの範囲を指定することを推奨しています。

データセット規模と堅牢性

10万枚以上の画像データセットを構築しました。精密に配置されたCG家具による少量データではなく、多様なバリエーションを含む大規模データセットと堅牢な処理プロセスを組み合わせることで、様々な複雑な状況にも対応できるモデルの実現を目指しました。

モデル学習

プロンプト設計

ユーザーの直感的な操作を実現するため、シンプルで理解しやすいプロンプト体系を設計しました:

"Remove furniture from room"
"Clean empty room interior"
"Show original room without furniture"
"empty space, nothing"

将来的には、ユーザーがより自然な日本語で指示できるよう、多言語対応も計画しています。

結果と実装

実際の処理結果では、高い品質の家具消し効果を実現できました:

テスト1

スト2

WebUI実装

ユーザーフレンドリーなインターフェースを実装し、直感的な操作を実現しました:

HuggingFaceデモ

主要機能:

  • 画像アップロード
  • 簡単なブラシツールによるマスク作成
  • スペースリーの家具セグメンテーションモデルによる自動家具検出が可能です
    • セグメンテーション機能
  • 検出結果に基づいて、ユーザーはマスクのさらなる微調整も行うことができます
    • マスク微調
  • 複数の処理結果を保持し、ユーザーが比較して最適な結果をダウンロードできる機能も提供しています
    • 複数の処理結果

処理結果例

実際の処理結果では、自然な空間表現を維持しながら家具の除去を実現しています。特に以下の点で従来手法より優れた結果を得られました:

  • ハルシネーションの大幅な削減: 不要なオブジェクトの生成を抑制
  • 不完全なマスクに対する堅牢性: ユーザーの大まかなマスク指定でも自然な結果を生成
  • 壁・床材のより自然な表現: 質感や模様の連続性を保持
  • 空間の一貫性: 部屋全体の照明環境と奥行き感を維持

今後の展開

サービス改善計画

現在の機能をベースに、以下の改善を計画しています:

  • セグメンテーションモデルの改良によるより高精度な家具検出
  • より高速な検出モデルのデプロイメント
  • インペインティングモデルのさらなる性能向上

研究開発の継続

弊社の特徴であるComputer Visionと生成AIの両方の技術を活用し、より高度な空間理解と編集機能の実現を目指します。生成AI技術の急速な進歩を取り入れながら、実用的で価値あるサービスの提供を継続していきます。

この機能により、ユーザーはより自由で創造的な空間利用の検討が可能になり、不動産選択における新たな体験を提供できると考えています。

さいごに

スペースリーでは一緒に働いてくださる方を大募集中です。