Daddy Makers: 포인트 클라우드 세그먼테이션 대표 기술인 Graph CNN 기반 모델과 Transformer 기반 모델 간 비교 분석

점군 세그먼테이션 분야에서 최근 Transformer 계열 모델이 설계되고 성능이 개선되고 있음에도 불구하고, RandLA-Net, PointCNN, KPConv 등 비교적 Graph CNN 기반 모델들이 여전히 널리 사용되고 높은 인지도를 유지하고 있다.여러 대표 오픈소스 모델의 특성, 리소스 요구, 구현 및 사용성 요소를 비교 분석하고, 인기 격차의 원인을 구조적으로 정리한다.

모델 크기와 성능 비교 분석(Efficient 3D Semantic Segmentation with Superpoint Transformer)

비교 분석
먼저 GitHub 인기 지표와 구현 복잡도, 리소스 요구, 사용자 지원 등 요소들을 중심으로 모델 간 차이를 비교하였다. 예를 들어 RandLA-Net 공식 구현은 많은 사용자를 확보했으며, 여러 포팅 버전이 존재하고 커뮤니티 지원이 활발하다. PyTorch 포팅 중 하나는 399 스타를 보유하고 있다. (GitHub) Open3D 문서에서는 RandLA-Net을 “efficient and lightweight” 구조라고 명시하고 있어, 낮은 메모리 및 계산 요구를 강조하고 있다. (open3d.org) 반면 Point Transformer V3는 공식 저장소가 존재하고 활발히 관리되고 있으나 일부 사용자는 Scannet 데이터셋 검증 시 성능 이슈를 제기하기도 한다. (GitHub) PTv3 논문에서는 neighbor mapping 직렬화, 메모리 절감 설계 등을 통해 performance/efficiency trade-off를 극복하려는 노력을 보였다. (openaccess.thecvf.com)

구조적 비교 관점에서, Graph CNN 기반 모델들은 복잡한 attention이나 토큰 샘플링 모듈이 적거나 전혀 없어서 구현 난이도가 낮고 디버깅 및 커스터마이즈가 수월하다. 반면 Transformer 기반 모델은 attention 모듈, neighbor 관계 처리, 메모리 관리, 병렬화 등 복합 요소가 포함되므로 구현 복잡도가 증가한다. 리소스 부담 측면에서도 Transformer 계열은 메모리 및 연산량이 클 가능성이 높다. 일부 모델은 최적화 설계를 포함하여 메모리 절감을 시도하지만, 여전히 대규모 점군 처리 시 병목 가능성이 크다. 사용성 및 커뮤니티 지원 측면에서는 Graph CNN 기반 모델들이 다양한 포팅 버전, 튜토리얼, 예제 코드, 버그 수정 커뮤니티 등이 누적되어 있어 연구자나 개발자가 처음 적용하기에 유리하다.

아래 표는 대표 모델들에 대해 (가능한 범위 내에서) GitHub 지표, 구현 복잡도, 리소스 부담, 사용성 측면 요소들을 정리한 것이다.

모델명	GitHub 인기 / 지표 (스타, 포크 등)	구현 복잡도 / 구조 특성	리소스 부담 (메모리, 연산)	사용성 / 문서화 / 커뮤니티 지원	강점 / 한계 요인
RandLA-Net (QingyongHu 공식)	공식 저장소 스타 수 다소 높음 (공식 구현) (GitHub) 비공식 PyTorch 포팅 구현 중 하나는 399 스타 (GitHub)	비교적 단순한 구조. 랜덤 샘플링 + 지역 특성 집계 방식 사용	경량 설계. Open3D 문서에서는 “efficient and lightweight” 구조라고 표현됨 (open3d.org)	다양한 포팅 구현체 존재, 튜토리얼 / 예제 코드 많음	대규모 점군 처리에 유리. 복잡한 attention 연산 없음. 다만 일부 복잡한 장면이나 고밀도 세그먼테이션에서 성능 한계 가능
PointCNN	Graph CNN 기반 모델 중 하나. 다수 연구에서 인용됨 (GitHub 지표는 최근 기준으로는 덜 활발할 수 있음)	convolution-like 연산 + neighborhood 정렬 등의 구조	중간 수준	문헌 및 오픈소스 구현체들이 많이 존재	구조적 직관성 강함. 다만 최신 기술 (attention 등) 도입이 제한적
Point Transformer V3	공식 저장소 존재 (GitHub)	Transformer 계열 구조 도입. neighbor mapping 직렬화 등 최적화 설계 포함	논문에서 메모리 사용량을 대폭 낮춘다고 주장 (10배 절감) 및 처리 속도 3배 향상 등 언급됨 (openaccess.thecvf.com)	활성 개발 중이며 이슈 트래킹 있음. 다만 일부 사용자들이 Scannet 검증 시 성능 이슈 지적 (GitHub)	성능과 효율성의 균형을 목표로 설계됨. 다만 초기 안정성, 복잡한 구현 요소 존재
Stratified Transformer	Transformer 기반 모델. 계층화된 attention 구조 채택 (논문 수준)	복잡한 계층적 attention 설계	메모리 부담 존재 가능성 높음	공개 구현은 있지만 튜토리얼 / 예제 커버가 제한적일 수 있음	복잡 장면, 다양한 스케일 처리 가능성 있음. 그러나 최적화가 어렵고 실제 환경 적용시 부담 있음
SuperPoint Transformer	Transformer 기반의 보다 실험적 구조	점 수준 attention + 포인트 기준 특징 집계 병합	메모리 및 연산 부담 클 가능성	발표 및 구현 초기 단계, 사용자 피드백 및 버그 리포트 있음	잠재력 있음. 다만 안정화 및 최적화가 관건
PointNeXt	변형된 구조 접목 모델	convolution + Transformer 혼합 또는 개선된 모듈 포함	중간~높음	비교적 문서화 수준 양호	강점과 한계 요소 혼합됨. 실용성/최적화 정도가 중요
Cylinder3D	특수 구조 (기둥 기반 처리)	데이터 레이아웃 구조에 특화됨	구조적으로 효율성을 기대할 수 있음	응용 중심 구현 사례 있음	특정 환경 (LiDAR 스캔, 도로 장면 등)에서 유리
KPConv (PyTorch 버전)	오픈소스 구현 존재	kernel point convolution 구조	중간 수준	비교적 많은 구현체 존재	다양한 변형 가능. 다만 attention 기반 최신 모델 대비 기능적 유연성 낮을 수 있음

원인 분석
위 비교를 바탕으로, 왜 RandLA-Net이나 PointCNN 같은 Graph CNN 기반 모델이 상대적으로 인기가 높고, 최신 Transformer 모델이 아직 덜 채택되고 있는지 원인별로 정리하면 다음과 같다.

Transformer 기반 모델은 attention 모듈, 토큰 샘플링/집계 전략, 메모리 최적화 등 복잡한 구성 요소를 포함하는 경우가 많다. 이러한 복잡성은 초기 사용자에게 진입 장벽이 된다. 반면 Graph CNN 기반 모델은 구조가 단순하고 직관적이기 때문에 구현 오류 가능성이 적고 커스터마이즈가 비교적 쉽다.

Transformer 구조는 포인트 간 상호작용을 계산하는 attention 연산이 많을 수 있다. 이로 인해 입력 포인트 수가 많아질수록 메모리 및 연산 부담이 커진다. 일부 모델은 이 문제를 완화하기 위한 설계를 포함하지만, 여전히 실제 대규모 환경에서는 병목 가능성이 존재한다.

Graph CNN 기반 모델들은 이미 여러 후속 연구에서 사용되며, 오류 수정, 개선 버전, 다양한 데이터셋 대응 등이 누적되어 검증된 안정성을 지닌다. 따라서 연구자들은 실패 위험이 낮은 검증된 모델을 선호하는 경향이 있다. Graph CNN 기반 모델들은 여러 사용자가 포크하고 개선해 온 포팅 버전, 튜토리얼 자료, 데이터 전처리/후처리 코드 등이 풍부하다. 이로 인해 새 사용자가 접근하기 쉬운 생태계가 형성되어 있다. 반면 최신 모델은 발표 직후 공개가 되더라도 문서화 수준이나 예제 범위가 제한적일 수 있다.

실제 응용 환경에서는 리소스 제약 (GPU 메모리, 실시간 처리 요구 등)이 강하게 작용한다. Graph CNN 기반 경량 모델들은 이러한 제약 환경에서도 동작 가능성이 높다. 반면 최신 모델이 이론적으로 유리하더라도 제약이 많은 환경에서는 적용이 어렵다. 이미 많이 사용되고 비교 논문들이 많은 모델은 기준 모델로 자리잡기 쉽다. 새로운 모델은 처음 채택될 때 추가 검증 비용, 코드 디버깅 비용 등이 필요하므로 사용자가 쉽게 옮기기 어렵다. 따라서 관성 효과가 생긴다.

기존의 경량 또는 비전통(point convolution, 샘플링 기반 등) 모델들이 여전히 많이 쓰이고 인기 있는 이유 중 하나는, 최신 Transformer 기반 모델이 성능 면에서는 일부 우위가 있을지라도, 추가 비용 대비 얻는 이득이 크지 않은 경우가 많기 때문이다. 즉, 가성비 관점에서 Transformer 모델이 불리한 상황이 존재할 가능성이 높다.

최근 리뷰 논문 “Evaluating Deep Learning Advances for Point Cloud”에서는 PTv3 등 최신 point 기반 Transformer 모델이 여러 도심 장면(urban-scene) 벤치마크에서 정확도 측면에서는 우위를 보인다고 평가하지만, 논문에서는 “높은 계산 비용Limitation”이 실제 응용에서 병목 요소로 작용할 수 있다고 지적한다. (d-nb.info)

한편, PTv3 논문 자체에서도, 기존의 복잡한 neighbor search + positional encoding 방식을 단순화하고 직렬화된 neighbor mapping 등을 도입하여, 처리 속도 3배 향상과 메모리 사용량 10배 절감 효과를 주장한 것은, 기본 Transformer 구조가 비용 측면에서 부담이 크다는 인식을 전제로 한 설계 전략이다. (arxiv.org) 또한, DeepLA-Net이라는 최근 모델은 S3DIS 등 실내 점군 세그먼테이션 문제에서 더 적은 파라미터로도 PTv3를 능가한 성능을 달성했다고 보고하며, 단순 구조가 더 효율적일 수 있음을 시사한다. (openaccess.thecvf.com)

또 다른 사례로, Superpoint Transformer는 적은 파라미터 수(약 212k)로도 여러 벤치마크에서 준수한 성능을 달성했으며, 코드 실행 시간이나 GPU 시간 측면에서도 효율적인 면을 강조한다. (arxiv.org) 또한 비교 논문 중 하나에서는, 새로운 모델이 RandLA-Net 대비 OA나 mIoU 면에서 약 3.0 % 또는 1.7 % 개선을 보였다는 보고가 있는데, 이 개선폭이 매우 크지 않음을 암시한다. (ScienceDirect)

이들 사실을 바탕으로, 가성비 관점에서는 Transformer 계열이 비용 부담이 더 크고, 그 부담을 감수할 만큼의 성능 향상이 반드시 크지는 않다는 해석이 가능하다.

아래는 가성비(trade-off) 관점에서 기존 모델이 유리한 경우와 Transformer 모델이 불리할 가능성이 높은 조건을 짚어보는 논리 흐름이다.

기본 연산 비용 vs 성능 향상 폭: Transformer 구조에서 attention 모듈, positional encoding, neighbor 관계 계산 등은 비용이 크다. 따라서 이런 비용을 도입했을 때 얻는 성능 이득이 충분히 높지 않으면, 그 추가 비용 대비 실익이 작다. 예컨대 PTv3는 복잡한 neighbor search와 positional encoding을 일부 간소화하였고, 이를 통해 속도 및 메모리 절감을 달성했다고 하지만, 이러한 절감이 없었다면 전체 구조가 매우 무거웠을 것이다. (arxiv.org)
리소스 제약 환경에서의 제약: 실제 응용 환경에서는 GPU 메모리 한계, 배치 크기 제한, 실시간 처리 요구 등이 존재한다. Transformer 모델이 메모리 병목을 유발하면 배치 크기를 줄이거나 간소화된 구조를 써야 하고, 이 경우 성능이 위축될 가능성이 있다. 반면 경량 모델(예: RandLA-Net)은 처음부터 자원 부담을 작게 설계했기 때문에 제약 환경에서도 안정 동작 가능성이 높다.
구현 복잡성 및 안정성 비용: Transformer 계열은 복잡한 설계 요소 (attention, 샘플링 전략, hierarchical 구조, 메모리 최적화 등)를 많이 포함할 수 있다. 이러한 복잡성은 코드 버그, 디버깅 비용, 유지보수 비용을 증가시킬 수 있다. 경량 모델은 구조가 단순하므로 이러한 위험이 낮다.
성능 누적 격차의 한계: 최신 모델이 기존 모델보다 우수한 성능을 보인다고 해도, 그 격차가 크지 않은 경우가 많다. 예컨대 어떤 논문에서는 RandLA-Net 대비 약 3.0 % 정도 향상했다고 보고한 바 있다. (ScienceDirect) 따라서 그 작은 격차를 얻기 위해 매우 큰 비용을 감수하는 것은 현실적으로 비효율적일 가능성이 높다.
효율 최적화가 가능한 경량 모델의 확장 가능성: 일부 경량 모델은 이미 여러 최적화 기법, 하드웨어 친화적 연산, 포팅, 병렬화 등이 누적되어 왔다. 따라서 동일한 하드웨어에서 더 안정적으로 동작한다.
반면 Transformer 기반 모델은 최적화가 미흡한 구현일 가능성이 높고, 하드웨어 제약에 덜 친화적일 수 있다.

기존 경량 기반 모델들과 Transformer 계열 모델 간 성능을 살펴보면, 실제로 큰 격차가 없는 경우가 상당히 많다. 최신 Transformer 모델은 일부 벤치마크에서 우위를 보이기도 하지만, 그 성능 향상 폭이 매우 크지는 않다. 반면 Transformer 구조가 도입하는 비용 (메모리, 연산, 구현 복잡성 등) 은 상당하다. 이런 맥락에서, 가성비 측면에서는 오히려 Transformer 계열이 불리한 경우가 많다고 볼 수 있다. 즉, 동일한 자원 또는 제한된 환경 하에서는 경량 또는 구조가 단순한 모델이 더 실용적 선택이 될 가능성이 높다.

부록: 24GB VRAM 내 가성비 있는 점군 학습 모델

GPU VRAM 24 GB 환경에서 실용성과 가성비를 고려했을 때 “가장 사용하기 좋다”고 판단할 수 있는 모델은 전통적인 경량 또는 절충형 구조 모델 중 하나가 될 가능성이 높다. 다만 “가장 좋다”는 조건은 사용자의 입력 규모, 배치 크기, 속도 요구, 세그먼테이션 난이도 등에 따라 달라지므로 아래는 여러 후보와 고려 요소를 같이 제시한다.
고려 기준 정리

먼저 24 GB VRAM 환경에서 모델 선택 시 고려해야 할 주요 요소들을 정리하면 다음과 같다.

요소	중요 이유
메모리 사용량 (activation, 중간 피처 등)	VRAM 한계 내에서 모델을 돌려야 하며, 배치 크기를 확보해야 함
연산 효율 / 플롭스 비용	연산량이 너무 많으면 속도 저하 / 병목 발생 가능
구현 안정성 및 최적화 지원	잘 최적화된 오픈소스가 있어야 버그 없이 돌릴 수 있음
성능 대비 비용 (가성비)	작은 리소스 증가로 얻는 성능 이득이 충분해야 함
응용 환경 적합성	대규모 점군 처리, 실시간 처리, 복잡 장면 등 조건 고려

아래는 24 GB VRAM 환경에서 실용적 후보가 될 만한 모델들과 그 장단점을 정리한 것이다.

모델	장점 / 적합성	단점 / 리스크
RandLA-Net	매우 경량 설계 + random sampling 기반 처리로 메모리 부담이 낮다. 논문에서는 1백만 점 처리 가능하다고 주장하며 효율성을 강조했다. (arxiv.org) 여러 실험에서 안정적 성능을 보이며 벤치마크에서 교차 검증된 모델임 (d-nb.info)	세밀한 복잡 장면이나 더 복잡한 구조 관계 모델링에서는 한계가 있을 수 있음
OctFormer	Transformer 계열이지만 octree 기반 attention을 사용하여 계산 복잡도를 줄인 구조이다. 그 결과 대규모 점군 처리 시 연산 및 메모리 효율이 상대적으로 우수하다고 보고됨. (arxiv.org) 논문에서는 “17배 빠르다”는 주장을 포함함. (arxiv.org)	Transformer 계열 특성상 일부 overhead가 남아 있으며, 실제 구현 최적화 여부가 중요하다
경량 + Sparse + Attention 혼합 구조 모델	예: “Real-Time Semantic Segmentation of Point Clouds Based on an Attention Mechanism and a Sparse Tensor” 논문처럼 sparse tensor + 경량 attention 구조를 쓴 모델이 있다. 이 경우 메모리 및 연산 절감 측면에서 유리하다. (mdpi.com)	성능이 매우 복잡한 장면에서는 한계 있을 수 있으며, 구현 및 튜닝이 중요하다
하이브리드 절충형 구조 (Convolution + Transformer 병합)	적절히 설계된 하이브리드 모델은 Transformer의 글로벌 컨텍스트 장점과 convolution 계열의 효율성을 절충할 수 있다	병합 방식 설계 복잡성, 메모리 overhead가 추가될 가능성 있음

이 모든 것을 고려하면, RandLA-Net 계열 구조 또는 OctFormer 쪽이 24 GB VRAM 환경에서 가장 균형 잡힌 선택이 될 가능성이 크다.

RandLA-Net은 이미 경량성과 안정성을 증명한 모델이다.
OctFormer은 Transformer 계열이지만 octree attention을 통한 효율화가 설계되어 있어, 비교적 부담이 덜한 Transformer 방향 대안이 될 수 있다.
만약 응용이 복잡 장면이나 많은 점군을 다룬다면, OctFormer 같은 구조 쪽이 더 유연성을 줄 가능성이 있다.

따라서, 24 GB VRAM 기준으로 “가장 사용하기 좋다”는 점을 감안하면 RandLA-Net이 가장 무난한 선택이며, Transformer 계열 모델을 쓰고 싶다면 OctFormer이 현실적 대안이 될 것이다.