비교 분석
먼저 GitHub 인기 지표와 구현 복잡도, 리소스 요구, 사용자 지원 등 요소들을 중심으로 모델 간 차이를 비교하였다. 예를 들어 RandLA-Net 공식 구현은 많은 사용자를 확보했으며, 여러 포팅 버전이 존재하고 커뮤니티 지원이 활발하다. PyTorch 포팅 중 하나는 399 스타를 보유하고 있다. (GitHub) Open3D 문서에서는 RandLA-Net을 “efficient and lightweight” 구조라고 명시하고 있어, 낮은 메모리 및 계산 요구를 강조하고 있다. (open3d.org) 반면 Point Transformer V3는 공식 저장소가 존재하고 활발히 관리되고 있으나 일부 사용자는 Scannet 데이터셋 검증 시 성능 이슈를 제기하기도 한다. (GitHub) PTv3 논문에서는 neighbor mapping 직렬화, 메모리 절감 설계 등을 통해 performance/efficiency trade-off를 극복하려는 노력을 보였다. (openaccess.thecvf.com)
구조적 비교 관점에서, Graph CNN 기반 모델들은 복잡한 attention이나 토큰 샘플링 모듈이 적거나 전혀 없어서 구현 난이도가 낮고 디버깅 및 커스터마이즈가 수월하다. 반면 Transformer 기반 모델은 attention 모듈, neighbor 관계 처리, 메모리 관리, 병렬화 등 복합 요소가 포함되므로 구현 복잡도가 증가한다. 리소스 부담 측면에서도 Transformer 계열은 메모리 및 연산량이 클 가능성이 높다. 일부 모델은 최적화 설계를 포함하여 메모리 절감을 시도하지만, 여전히 대규모 점군 처리 시 병목 가능성이 크다. 사용성 및 커뮤니티 지원 측면에서는 Graph CNN 기반 모델들이 다양한 포팅 버전, 튜토리얼, 예제 코드, 버그 수정 커뮤니티 등이 누적되어 있어 연구자나 개발자가 처음 적용하기에 유리하다.
아래 표는 대표 모델들에 대해 (가능한 범위 내에서) GitHub 지표, 구현 복잡도, 리소스 부담, 사용성 측면 요소들을 정리한 것이다.
원인 분석
위 비교를 바탕으로, 왜 RandLA-Net이나 PointCNN 같은 Graph CNN 기반 모델이 상대적으로 인기가 높고, 최신 Transformer 모델이 아직 덜 채택되고 있는지 원인별로 정리하면 다음과 같다.
Transformer 기반 모델은 attention 모듈, 토큰 샘플링/집계 전략, 메모리 최적화 등 복잡한 구성 요소를 포함하는 경우가 많다. 이러한 복잡성은 초기 사용자에게 진입 장벽이 된다. 반면 Graph CNN 기반 모델은 구조가 단순하고 직관적이기 때문에 구현 오류 가능성이 적고 커스터마이즈가 비교적 쉽다.
Transformer 구조는 포인트 간 상호작용을 계산하는 attention 연산이 많을 수 있다. 이로 인해 입력 포인트 수가 많아질수록 메모리 및 연산 부담이 커진다. 일부 모델은 이 문제를 완화하기 위한 설계를 포함하지만, 여전히 실제 대규모 환경에서는 병목 가능성이 존재한다.
Graph CNN 기반 모델들은 이미 여러 후속 연구에서 사용되며, 오류 수정, 개선 버전, 다양한 데이터셋 대응 등이 누적되어 검증된 안정성을 지닌다. 따라서 연구자들은 실패 위험이 낮은 검증된 모델을 선호하는 경향이 있다. Graph CNN 기반 모델들은 여러 사용자가 포크하고 개선해 온 포팅 버전, 튜토리얼 자료, 데이터 전처리/후처리 코드 등이 풍부하다. 이로 인해 새 사용자가 접근하기 쉬운 생태계가 형성되어 있다. 반면 최신 모델은 발표 직후 공개가 되더라도 문서화 수준이나 예제 범위가 제한적일 수 있다.
실제 응용 환경에서는 리소스 제약 (GPU 메모리, 실시간 처리 요구 등)이 강하게 작용한다. Graph CNN 기반 경량 모델들은 이러한 제약 환경에서도 동작 가능성이 높다. 반면 최신 모델이 이론적으로 유리하더라도 제약이 많은 환경에서는 적용이 어렵다. 이미 많이 사용되고 비교 논문들이 많은 모델은 기준 모델로 자리잡기 쉽다. 새로운 모델은 처음 채택될 때 추가 검증 비용, 코드 디버깅 비용 등이 필요하므로 사용자가 쉽게 옮기기 어렵다. 따라서 관성 효과가 생긴다.
기존의 경량 또는 비전통(point convolution, 샘플링 기반 등) 모델들이 여전히 많이 쓰이고 인기 있는 이유 중 하나는, 최신 Transformer 기반 모델이 성능 면에서는 일부 우위가 있을지라도, 추가 비용 대비 얻는 이득이 크지 않은 경우가 많기 때문이다. 즉, 가성비 관점에서 Transformer 모델이 불리한 상황이 존재할 가능성이 높다.
최근 리뷰 논문 “Evaluating Deep Learning Advances for Point Cloud”에서는 PTv3 등 최신 point 기반 Transformer 모델이 여러 도심 장면(urban-scene) 벤치마크에서 정확도 측면에서는 우위를 보인다고 평가하지만, 논문에서는 “높은 계산 비용Limitation”이 실제 응용에서 병목 요소로 작용할 수 있다고 지적한다. (d-nb.info)
한편, PTv3 논문 자체에서도, 기존의 복잡한 neighbor search + positional encoding 방식을 단순화하고 직렬화된 neighbor mapping 등을 도입하여, 처리 속도 3배 향상과 메모리 사용량 10배 절감 효과를 주장한 것은, 기본 Transformer 구조가 비용 측면에서 부담이 크다는 인식을 전제로 한 설계 전략이다. (arxiv.org) 또한, DeepLA-Net이라는 최근 모델은 S3DIS 등 실내 점군 세그먼테이션 문제에서 더 적은 파라미터로도 PTv3를 능가한 성능을 달성했다고 보고하며, 단순 구조가 더 효율적일 수 있음을 시사한다. (openaccess.thecvf.com)
또 다른 사례로, Superpoint Transformer는 적은 파라미터 수(약 212k)로도 여러 벤치마크에서 준수한 성능을 달성했으며, 코드 실행 시간이나 GPU 시간 측면에서도 효율적인 면을 강조한다. (arxiv.org) 또한 비교 논문 중 하나에서는, 새로운 모델이 RandLA-Net 대비 OA나 mIoU 면에서 약 3.0 % 또는 1.7 % 개선을 보였다는 보고가 있는데, 이 개선폭이 매우 크지 않음을 암시한다. (ScienceDirect)
이들 사실을 바탕으로, 가성비 관점에서는 Transformer 계열이 비용 부담이 더 크고, 그 부담을 감수할 만큼의 성능 향상이 반드시 크지는 않다는 해석이 가능하다.
아래는 가성비(trade-off) 관점에서 기존 모델이 유리한 경우와 Transformer 모델이 불리할 가능성이 높은 조건을 짚어보는 논리 흐름이다.
- 기본 연산 비용 vs 성능 향상 폭: Transformer 구조에서 attention 모듈, positional encoding, neighbor 관계 계산 등은 비용이 크다. 따라서 이런 비용을 도입했을 때 얻는 성능 이득이 충분히 높지 않으면, 그 추가 비용 대비 실익이 작다. 예컨대 PTv3는 복잡한 neighbor search와 positional encoding을 일부 간소화하였고, 이를 통해 속도 및 메모리 절감을 달성했다고 하지만, 이러한 절감이 없었다면 전체 구조가 매우 무거웠을 것이다. (arxiv.org)
- 리소스 제약 환경에서의 제약: 실제 응용 환경에서는 GPU 메모리 한계, 배치 크기 제한, 실시간 처리 요구 등이 존재한다. Transformer 모델이 메모리 병목을 유발하면 배치 크기를 줄이거나 간소화된 구조를 써야 하고, 이 경우 성능이 위축될 가능성이 있다. 반면 경량 모델(예: RandLA-Net)은 처음부터 자원 부담을 작게 설계했기 때문에 제약 환경에서도 안정 동작 가능성이 높다.
- 구현 복잡성 및 안정성 비용: Transformer 계열은 복잡한 설계 요소 (attention, 샘플링 전략, hierarchical 구조, 메모리 최적화 등)를 많이 포함할 수 있다. 이러한 복잡성은 코드 버그, 디버깅 비용, 유지보수 비용을 증가시킬 수 있다. 경량 모델은 구조가 단순하므로 이러한 위험이 낮다.
- 성능 누적 격차의 한계: 최신 모델이 기존 모델보다 우수한 성능을 보인다고 해도, 그 격차가 크지 않은 경우가 많다. 예컨대 어떤 논문에서는 RandLA-Net 대비 약 3.0 % 정도 향상했다고 보고한 바 있다. (ScienceDirect) 따라서 그 작은 격차를 얻기 위해 매우 큰 비용을 감수하는 것은 현실적으로 비효율적일 가능성이 높다.
- 효율 최적화가 가능한 경량 모델의 확장 가능성: 일부 경량 모델은 이미 여러 최적화 기법, 하드웨어 친화적 연산, 포팅, 병렬화 등이 누적되어 왔다. 따라서 동일한 하드웨어에서 더 안정적으로 동작한다.
- 반면 Transformer 기반 모델은 최적화가 미흡한 구현일 가능성이 높고, 하드웨어 제약에 덜 친화적일 수 있다.
기존 경량 기반 모델들과 Transformer 계열 모델 간 성능을 살펴보면, 실제로 큰 격차가 없는 경우가 상당히 많다. 최신 Transformer 모델은 일부 벤치마크에서 우위를 보이기도 하지만, 그 성능 향상 폭이 매우 크지는 않다. 반면 Transformer 구조가 도입하는 비용 (메모리, 연산, 구현 복잡성 등) 은 상당하다. 이런 맥락에서, 가성비 측면에서는 오히려 Transformer 계열이 불리한 경우가 많다고 볼 수 있다. 즉, 동일한 자원 또는 제한된 환경 하에서는 경량 또는 구조가 단순한 모델이 더 실용적 선택이 될 가능성이 높다.
부록: 24GB VRAM 내 가성비 있는 점군 학습 모델
GPU VRAM 24 GB 환경에서 실용성과 가성비를 고려했을 때 “가장 사용하기 좋다”고 판단할 수 있는 모델은 전통적인 경량 또는 절충형 구조 모델 중 하나가 될 가능성이 높다. 다만 “가장 좋다”는 조건은 사용자의 입력 규모, 배치 크기, 속도 요구, 세그먼테이션 난이도 등에 따라 달라지므로 아래는 여러 후보와 고려 요소를 같이 제시한다.
고려 기준 정리
먼저 24 GB VRAM 환경에서 모델 선택 시 고려해야 할 주요 요소들을 정리하면 다음과 같다.
이 모든 것을 고려하면, RandLA-Net 계열 구조 또는 OctFormer 쪽이 24 GB VRAM 환경에서 가장 균형 잡힌 선택이 될 가능성이 크다.
고려 기준 정리
먼저 24 GB VRAM 환경에서 모델 선택 시 고려해야 할 주요 요소들을 정리하면 다음과 같다.
아래는 24 GB VRAM 환경에서 실용적 후보가 될 만한 모델들과 그 장단점을 정리한 것이다.
이 모든 것을 고려하면, RandLA-Net 계열 구조 또는 OctFormer 쪽이 24 GB VRAM 환경에서 가장 균형 잡힌 선택이 될 가능성이 크다.
- RandLA-Net은 이미 경량성과 안정성을 증명한 모델이다.
- OctFormer은 Transformer 계열이지만 octree attention을 통한 효율화가 설계되어 있어, 비교적 부담이 덜한 Transformer 방향 대안이 될 수 있다.
- 만약 응용이 복잡 장면이나 많은 점군을 다룬다면, OctFormer 같은 구조 쪽이 더 유연성을 줄 가능성이 있다.
댓글 없음:
댓글 쓰기