2025년 10월 8일 수요일

최신(23~25년도) 3차원 포인트 클라우드 세그먼테이션 기술 동향 조사 및 분석

3D 포인트 클라우드 세그먼테이션은 자율주행, 로봇 인지, 도시 지도 구축 등 다양한 응용 분야에서 핵심 기술이다. 최근 3년(2022~2025) 사이에는 Transformer 기반 구조 도입, 시공간 정보 융합, 효율적 샘플링 전략, 오픈어휘 및 제로샷 일반화 방법 등이 활발히 제안되고 있다. 또한 실험 조건을 동일하게 비교한 벤치마크 연구가 등장하면서, 실제 응용에 적합한 모델 선택 기준이 점차 명확해지고 있다.

모델 동향 및 비교
야외 LiDAR 단일 스캔 처리에서는 SFCNet이 구면 투영 방식의 양자화 손실을 줄인 구조로 SemanticKITTI 기준 mIoU 62.9 %을 달성하였다. 실시간 또는 다중 스캔 처리가 필요한 경우에는 SegNet4D가 멀티스캔 기반의 4D 세그먼테이션을 효율적으로 수행하며 instance consistency 모듈을 포함한다. LiDAR 포인트가 멀리 떨어질수록 점 밀도가 낮아지는 특성을 보정하기 위해 PCB-RandNet은 Polar Cylinder 균형 샘플링 및 샘플링 일관성 손실을 도입하여 성능을 개선하였다. 시간축 융합을 활용하는 TASeg은 과거 스캔 정보까지 활용하여 더 견고한 예측을 제공한다.

다양한 LiDAR 장비 대응을 목표로 한 SFPNet은 sparse focal point modulation 방식을 제안하여 하이퍼파라미터 일반화를 시도하였다. 실내 구조 또는 건축물 분할에서는 구조적 prior 정보를 통합한 AKAF 모듈이 사용되었으며, S3DIS 등의 실내 스캔에서 구조 요소 분할 성능을 높였다. 파트 수준 분할에서는 PartSLIP이 이미지-언어 사전학습 모델과 결합한 로우샷 대응 방식을 제안하였다.

최근 연구 흐름에서는 오픈어휘/제로샷 일반화를 지향하는 CitySeg가 도시 규모 포인트 클라우드에 대응 가능한 텍스트 기반 분류-세그먼테이션 방식을 제안하였다. 기존 이미지 세분화 기반 SAM과 3D 처리를 결합한 SAMNet++도 제시되었다. 

3D Open Vocabulary Semantic Segmentation Foundation Model in City-scale Scenario

다양한 태스크별 최신 모델 비교
아래는 세부 태스크(야외 LiDAR 장면, 실내 실내 스캔, 파트 세그먼테이션, 4D 멀티스캔 등)를 중심으로 최근 발표된 대표 모델들을 골라 비교한 표이다.

태스크 / 특징

모델명 및 발표 연도

공개 코드 / 저장소

주요 성능 지표 (mIoU, OA 등)

리소스 요구 / 특징 / 제약

야외 LiDAR 장면 (한 스캔 기준)

SFCNet (NeurIPS 2024)

GitHub (spherical frustum 구현) (GitHub)

SemanticKITTI 기준 검증 mIoU = 62.9 % (GitHub)

기존의 구형 구면 투영 방식의 양자화 손실을 줄이는 구조; 해시 기반 저장 방식으로 메모리 절약; spconv 기반 구현

야외 LiDAR 멀티스캔 / 연속 스캔 (4D)

SegNet4D (2024)

GitHub: https://github.com/nubot-nudt/SegNet4D (arXiv)

논문에서는 기존 SOTA 대비 우수한 4D 세그먼테이션 성능 보고 (자세한 mIoU 수치는 본문 참조) (arXiv)

실시간 처리 목표, 단일 스캔 세그먼테이션 + 동적 객체 식별 모듈 결합, instance consistency 모듈 포함

야외 LiDAR 샘플링 보정

PCB-RandNet (ICRA 2024)

GitHub: huixiancheng/PCB-RandNet (GitHub)

SemanticKITTI / SemanticPOSS 기준에서 논문 비교 우수성 주장 (mIoU 중심) (GitHub)

Polar Cylinder 기반 균형 샘플링 + 샘플링 일관성 손실 (Sampling Consistency Loss) 도입; 단일 GPU 환경에서 구현 가능하도록 설계됨

야외 LiDAR 시간 축 융합

TASeg (CVPR 2024)

GitHub: LittlePey/TASeg (GitHub)

논문 내 다양한 실험에서 성능 우수성 보고 (SemanticKITTI, nuScenes 등) (GitHub)

시간축 점 구름을 융합하여 시공간적 정보를 활용, 멀티스캔 누적 정보 활용 가능

일반 LiDAR (다양한 LiDAR 장비 대응)

SFPNet (2024)

GitHub: Cavendish518/SFPNet (arXiv)

여러 벤치마크 데이터셋에서 경쟁력 있는 성능 보고됨 (논문 내 mIoU 등) (arXiv)

다양한 LiDAR 장비 특성을 허용하는 sparse focal point modulation 기법 사용, 하이퍼파라미터 일반화 가능성 강조

실내 스캔 / 건축 구조 세그먼테이션

AKAF 기반 모델 (WACV 2025)

논문에 제시된 백본 모델 + 모듈 식 접근 (openaccess.thecvf.com)

S3DIS 데이터셋 등에서 구조 요소 정확도 향상 보고 (기존 대비 약 5 % 이상 성능 증가) (openaccess.thecvf.com)

structural prior (건축 지식 기반 피처) 통합, 두 단계 학습 구조 (explicit + implicit)

다중 스캔 또는 복합 세그먼테이션

SegNet4D (위)

파트 (object part) 세그먼테이션

PartSLIP (2023)

GitHub: SZU-AdvTech-2023/PartSLIP (GitHub) (저장소 수록됨)

로우샷 설정에서 기존 대비 향상된 mIoU / mAcc 보고

이미지-언어 사전학습 모델과의 연계, 부분 라벨 데이터가 적은 상황 대응 가능

오픈어휘 / 제로샷 3D 세그먼테이션

CitySeg (2025)

아직 코드 공개 여부 미확정 (arXiv 논문) (arXiv)

폐쇄집합 벤치마크 9개에서 SOTA 성능 보고, 제로샷 일반화 가능성 제시 (arXiv)

텍스트 모달리티 포함, 지역-글로벌 교차 주의 구조, 계층적 레이블 전략 사용

부분 / 객체 분할 + 기초 구조

SAMNet++ (2025)

논문 기반 하이브리드 구조 제안 (mdpi.com)

도시 인프라 (건물, 도로 등) 세그먼테이션 성능 개선 보고

SAM (2D 기반 세분화) + PointNet++ 결합 방식


또한, “An Experimental Study of SOTA LiDAR Segmentation Models (2025)” 논문은 다양한 포맷 (point-, voxel-, range image 기반 모델들) 간의 비교를 제공하였으며, 모델 파라미터 수, 테스트 중 최대 GPU 메모리 사용량, 추론 지연(latency), 프레임 속도, IoU / mIoU 등을 비교 평가하였다. (arXiv) 예컨대 해당 실험 연구에서는 동일 조건 하에서 여러 최신 모델의 메모리 및 속도 특성까지 비교한 결과를 제시한다는 점이 의미 있다. (arXiv) 또한, 야외 장면에서의 투영 기반 또는 2D 변환 방식 모델들의 한계와, 양자화 손실이나 정보 누락 등이 주요 문제로 지적되었다. (arXiv)

성능 지표 및 한계
모델 평가에는 전체 정확도(OA), 클래스별 평균 정확도(mAcc), 평균 교차율(mIoU) 등이 주로 사용된다. 그러나 각 논문이 사용하는 데이터셋 (SemanticKITTI, nuScenes, S3DIS 등), 클래스 수, 전처리/후처리 방식이 다르므로 지표 간 직접 비교에는 주의가 필요하다. 벤치마크 비교 연구는 동일 조건 하에서 메모리 및 속도 지표까지 포함해 비교함으로써 실용적 선택 기준을 제시한다. (arXiv) 또한 소규모 객체, 멀리 있는 객체, 희소 영역 등의 분할 성능 저하, 다양한 LiDAR 장비 간 일반화 문제, 학습 라벨의 부족 등은 여전히 해결 과제로 남아 있다.

하드웨어 및 리소스 고려 사항
대부분 모델은 GPU 메모리 한계에 민감하며, 배치 크기, mixed precision, 서브샘플링 전략 등이 성능과 속도에 큰 영향을 준다. PCB-RandNet은 단일 GPU 환경에서도 동작 가능하도록 설계되었으며 공개 코드에서 PyTorch ≥1.9 이상을 요구한다. (GitHub)
SFCNet은 해시 기반 저장 구조로 메모리 절약을 꾀하였고 spconv를 활용한 sparse convolution 기반 구현이다. (GitHub) TASeg 구현은 OpenPCSeg 기반 구조 위에 시간축 융합 모듈을 쌓은 형태이다. (GitHub) SegNet4D는 실시간 처리를 목표로 하여 연산 복잡도를 최소화하면서 성능을 유지하는 구조를 설계하였다. (arXiv)

결론
최근 3년 내 발표된 딥러닝 기반 포인트 클라우드 세그먼테이션 모델들은 성능 향상뿐 아니라 실제 응용 가능성을 고려한 효율성 설계, 일반화 가능성, 시간축 융합, 샘플링 전략 등이 주요 연구 축이 되었다. 하지만 여전히 다양한 LiDAR 장비 간의 일반화, 희소 영역의 세분 성능, 학습 라벨 부족 문제 등이 남아 있다.

레퍼런스

댓글 없음:

댓글 쓰기