일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 온톨로지 #하이퍼커넥션 #옵시디언 #세컨드브레인 #지식관리
- SQL
- Spring
- MariaDB
- 애자일 #애자일조직문화 #스프린트 #스크럼
- U-Net
- JPA
- MySQL
- 몰입 #유튜브
- 비전
- 스크럼 #애자일조직문화 #애자일 #스프린트
- unet
- 딥러닝
- zettelkasten #제텔카스텐 #파라 #지식관리
- CNN
- 열정은 쓰레기다 #system #독서후기
- 애자일 #데일리스크럼 #스프린트 #독서 #it #개발
- Today
- Total
DevWalk
[논문 리뷰] vision - Open-Vocabulary Semantic Segmentation with Mask-adapted CLIP 본문
[논문 리뷰] vision - Open-Vocabulary Semantic Segmentation with Mask-adapted CLIP
__paul__ 2025. 4. 21. 00:40마스크 프롬프트 튜닝으로 무제한 객체 탐지, OVSeg 리뷰
최근 컴퓨터 비전 분야는 '오픈 보캐뷸러리(Open-Vocabulary)'로 빠르게 확장되고 있습니다. 기존에는 모델이 학습한 클래스에 대해서만 세그멘테이션이 가능했다면, 이제는 학습하지 않은 객체까지도 인식하고 분할할 수 있는 시대가 열린 것입니다.
이러한 패러다임 전환을 이끈 논문 중 하나가 바로 CVPR 2023에서 발표된
"Open-Vocabulary Semantic Segmentation with Mask-adapted CLIP (OVSeg)"입니다.
이 글에서는 OVSeg 논문의 핵심 아이디어와 실험 결과, 그리고 이 기술이 어떤 확장 가능성을 가질 수 있는지를 소개합니다.
배경: 왜 Open-Vocabulary가 중요한가?
기존 semantic segmentation 모델들은 대체로 고정된 클래스 수를 대상으로 훈련됩니다. 예를 들어, ADE20K, COCO 등에서 학습된 모델은 해당 데이터셋 내의 클래스(ex: 고양이, 의자, 책상 등)에 대해서만 객체를 인식하고 마스크를 그릴 수 있습니다.
하지만 현실 세계는 훨씬 다양하고 복잡합니다.
새로운 물체, 신조어, 세부 카테고리… 이 모두를 하나의 모델에 전부 학습시키는 것은 비효율적이며 불가능에 가깝습니다.
이러한 한계를 돌파하기 위해 등장한 것이 바로 Open-Vocabulary Segmentation, 즉 ‘미리 학습하지 않은 객체도 텍스트 프롬프트만 주면 세그멘테이션할 수 있는 기술’입니다.
OVSeg의 핵심 아이디어
OVSeg는 OpenAI의 CLIP 모델을 중심으로 다음과 같은 두 가지 기술을 제안합니다.
1. Mask-adapted CLIP
기존 CLIP은 전체 이미지를 입력으로 학습되었기 때문에, 세그멘테이션 마스크처럼 부분 이미지만 남았을 때 성능이 급격히 저하됩니다.
이를 보완하기 위해 OVSeg는 CLIP을 마스크된 이미지에도 적응하도록 학습시킵니다.
- COCO 캡션 데이터셋에서 객체에 해당하는 마스크와 명사 텍스트를 쌍으로 만들어 학습
- 이 과정을 통해 CLIP이 마스크 영역만 보고도 정확하게 객체를 인식할 수 있게 됩니다
2. Mask Prompt Tuning
CLIP 전체를 재학습하는 것은 계산량도 많고 자원도 큽니다.
OVSeg는 CLIP의 가중치를 변경하지 않고, 대신 마스크된 입력에 프롬프트 벡터를 삽입합니다.
이 벡터들은 학습 가능한 파라미터로, 마스크된 이미지에 대한 CLIP의 성능을 크게 향상시킵니다.
즉, 성능 향상은 유지하면서도 계산량은 최소화하는 스마트한 방식입니다.
실험 결과로 입증된 효과
논문에서는 다양한 Open-Vocabulary 벤치마크에서 OVSeg를 평가합니다.
결과는 매우 인상적입니다.
ADE20K-150 | 21.1 | 29.6 |
ADE20K-847 (Unseen) | 10.8 | 15.0 |
Pascal Context-459 | 15.2 | 22.1 |
- Unseen class 성능이 크게 향상
- Mask Prompt만으로도 의미 있는 향상 가능
- Full fine-tuning과의 결합 시 추가 상승
이로써 OVSeg는 기존 방식 대비 뛰어난 성능을, 훨씬 적은 자원으로 달성하게 됩니다.
이 논문이 가진 의미
OVSeg는 단순한 성능 개선을 넘어서, 세그멘테이션의 새로운 방향성을 제시합니다.
- 💬 텍스트로 원하는 클래스를 입력하고
- 🎨 해당 객체를 정확히 마스크로 분할할 수 있는 능력
이것은 단순히 Semantic Segmentation의 성능을 높이는 것이 아니라,
모델의 표현력과 유연성 자체를 극대화하는 접근입니다.
이 기술은 다음과 같이 확장될 수 있습니다:
- SAM과 결합: OVSeg + SAM 조합은 강력한 Zero-shot + High-quality 세그멘테이션 가능
- 로봇 비전, 자율주행, AR/VR 등에서 미리 정의되지 않은 객체까지도 인식
- LLM과 결합한 멀티모달 인터페이스 구축
참고 링크
마무리하며
OVSeg는 세그멘테이션 분야에서 "모든 것을 분할하고 이름 붙일 수 있는" 가능성을 보여주는 강력한 사례입니다.
Zero-shot 세그멘테이션 기술이 실용화되는 흐름 속에서,
CLIP 기반 기술의 한계와 가능성을 동시에 보여준 중요한 연구입니다.
더 넓은 세상과 더 많은 객체를 인식하기 위한 여정은 이제 시작입니다.
'인공지능 > ML,DL' 카테고리의 다른 글
[DL] Swim Transformer (0) | 2023.02.21 |
---|---|
[DL] EfficientDet (0) | 2023.02.13 |
[DL] U-Net (0) | 2023.02.13 |