DevWalk

[논문 리뷰] vision - Open-Vocabulary Semantic Segmentation with Mask-adapted CLIP 본문

인공지능/ML,DL

[논문 리뷰] vision - Open-Vocabulary Semantic Segmentation with Mask-adapted CLIP

__paul__ 2025. 4. 21. 00:40

마스크 프롬프트 튜닝으로 무제한 객체 탐지, OVSeg 리뷰

최근 컴퓨터 비전 분야는 '오픈 보캐뷸러리(Open-Vocabulary)'로 빠르게 확장되고 있습니다. 기존에는 모델이 학습한 클래스에 대해서만 세그멘테이션이 가능했다면, 이제는 학습하지 않은 객체까지도 인식하고 분할할 수 있는 시대가 열린 것입니다.

이러한 패러다임 전환을 이끈 논문 중 하나가 바로 CVPR 2023에서 발표된
"Open-Vocabulary Semantic Segmentation with Mask-adapted CLIP (OVSeg)"입니다.

이 글에서는 OVSeg 논문의 핵심 아이디어와 실험 결과, 그리고 이 기술이 어떤 확장 가능성을 가질 수 있는지를 소개합니다.


배경: 왜 Open-Vocabulary가 중요한가?

기존 semantic segmentation 모델들은 대체로 고정된 클래스 수를 대상으로 훈련됩니다. 예를 들어, ADE20K, COCO 등에서 학습된 모델은 해당 데이터셋 내의 클래스(ex: 고양이, 의자, 책상 등)에 대해서만 객체를 인식하고 마스크를 그릴 수 있습니다.

하지만 현실 세계는 훨씬 다양하고 복잡합니다.
새로운 물체, 신조어, 세부 카테고리… 이 모두를 하나의 모델에 전부 학습시키는 것은 비효율적이며 불가능에 가깝습니다.

이러한 한계를 돌파하기 위해 등장한 것이 바로 Open-Vocabulary Segmentation, 즉 ‘미리 학습하지 않은 객체도 텍스트 프롬프트만 주면 세그멘테이션할 수 있는 기술’입니다.


OVSeg의 핵심 아이디어

OVSeg는 OpenAI의 CLIP 모델을 중심으로 다음과 같은 두 가지 기술을 제안합니다.

1. Mask-adapted CLIP

기존 CLIP은 전체 이미지를 입력으로 학습되었기 때문에, 세그멘테이션 마스크처럼 부분 이미지만 남았을 때 성능이 급격히 저하됩니다.

이를 보완하기 위해 OVSeg는 CLIP을 마스크된 이미지에도 적응하도록 학습시킵니다.

  • COCO 캡션 데이터셋에서 객체에 해당하는 마스크와 명사 텍스트를 쌍으로 만들어 학습
  • 이 과정을 통해 CLIP이 마스크 영역만 보고도 정확하게 객체를 인식할 수 있게 됩니다

2. Mask Prompt Tuning

CLIP 전체를 재학습하는 것은 계산량도 많고 자원도 큽니다.
OVSeg는 CLIP의 가중치를 변경하지 않고, 대신 마스크된 입력에 프롬프트 벡터를 삽입합니다.
이 벡터들은 학습 가능한 파라미터로, 마스크된 이미지에 대한 CLIP의 성능을 크게 향상시킵니다.

즉, 성능 향상은 유지하면서도 계산량은 최소화하는 스마트한 방식입니다.


실험 결과로 입증된 효과

논문에서는 다양한 Open-Vocabulary 벤치마크에서 OVSeg를 평가합니다.
결과는 매우 인상적입니다.

데이터셋기존 최고 mIoUOVSeg mIoU
ADE20K-150 21.1 29.6
ADE20K-847 (Unseen) 10.8 15.0
Pascal Context-459 15.2 22.1
  • Unseen class 성능이 크게 향상
  • Mask Prompt만으로도 의미 있는 향상 가능
  • Full fine-tuning과의 결합 시 추가 상승

이로써 OVSeg는 기존 방식 대비 뛰어난 성능을, 훨씬 적은 자원으로 달성하게 됩니다.


이 논문이 가진 의미

OVSeg는 단순한 성능 개선을 넘어서, 세그멘테이션의 새로운 방향성을 제시합니다.

  • 💬 텍스트로 원하는 클래스를 입력하고
  • 🎨 해당 객체를 정확히 마스크로 분할할 수 있는 능력

이것은 단순히 Semantic Segmentation의 성능을 높이는 것이 아니라,
모델의 표현력과 유연성 자체를 극대화하는 접근입니다.

이 기술은 다음과 같이 확장될 수 있습니다:

  • SAM과 결합: OVSeg + SAM 조합은 강력한 Zero-shot + High-quality 세그멘테이션 가능
  • 로봇 비전, 자율주행, AR/VR 등에서 미리 정의되지 않은 객체까지도 인식
  • LLM과 결합한 멀티모달 인터페이스 구축

참고 링크


마무리하며

OVSeg는 세그멘테이션 분야에서 "모든 것을 분할하고 이름 붙일 수 있는" 가능성을 보여주는 강력한 사례입니다.
Zero-shot 세그멘테이션 기술이 실용화되는 흐름 속에서,
CLIP 기반 기술의 한계와 가능성을 동시에 보여준 중요한 연구입니다.

더 넓은 세상과 더 많은 객체를 인식하기 위한 여정은 이제 시작입니다.

'인공지능 > ML,DL' 카테고리의 다른 글

[DL] Swim Transformer  (0) 2023.02.21
[DL] EfficientDet  (0) 2023.02.13
[DL] U-Net  (0) 2023.02.13