Daddy Makers

SW, HW, CG, ART, 건설, 건축 메이크 과정을 정리, 공유하는 블로그입니다 - 대디 메이커

2024년 7월 16일 화요일

다양한 멀티모달 3D 생성 AI 아키텍처 모델 레퍼런스 정리

이 글은 다양한 생성AI 아키텍처 모델을 설명한 레퍼런스를 정리한다.

개념도

다음은 2022년부터 3D, 이미지 분야 생성AI 기술 리스트를 정리한 것이다. TEXT-TO-3D, IMAGE, AUDIO 등 다양하다.

LivePortrait: Bring portraits to life
CLIP-Sculptor: Zero-Shot Generation of High-Fidelity and Diverse Shapes from Natural Language
SINC: Spatial Composition of 3D Human Motions for Simultaneous Action Generation
Make-An-Animation: Large-Scale Text-conditional 3D Human Motion Generation
Articulated 3D Head Avatar Generation using Text-to-Image Diffusion Models
Multimodal 3D Hand Pose Enhancement for Sign Language
Text and Image Guided 3D Avatar Generation and Manipulation
TexFusion: Synthesizing 3D Textures with Text-Guided Image Diffusion Models
DreamAvatar: Text-and-Shape Guided 3D Human Avatar Generation via Diffusion Models
Guide3D: Create 3D Avatars from Text and Image Guidance
High-Fidelity Generalized Emotional Talking Face Generation with Multi-Modal Emotion Space Learning
MRIS: A Multi-modal Retrieval Approach for Image Synthesis on Diverse Modalities
Text2Tex: Text-driven Texture Synthesis via Diffusion Models
Fantasia3D: Disentangling Geometry and Appearance for High-quality Text-to-3D Content Creation
Text2Light: Zero-Shot Text-Driven HDR Panorama Generation
Text-to-3D using Gaussian Splatting
Autoregressive 3D Shape Generation via Canonical Mapping
SDFusion: Multimodal 3D Shape Completion, Reconstruction, and Generation
Efficient Text-Guided 3D-Aware Portrait Generation with Score Distillation Sampling on Distribution
Cross-Modal 3D Shape Generation and Manipulation
ITportrait: Image-Text Coupled 3D Portrait Domain Adaptation
FaceFormer: Speech-Driven 3D Facial Animation with Transformers
Ctrl-Room: Controllable Text-to-3D Room Meshes Generation with Layout Constraints
Text-guided 3D Human Generation from 2D Collections
TM2D: Bimodality Driven 3D Dance Generation via Music-Text Integration
Semantify: Simplifying the Control of 3D Morphable Models using CLIP
Point-Bind & Point-LLM: Aligning Point Cloud with Multi-modality for 3D Understanding, Generation, and Instruction Following
Zero3D: Semantic-Driven Multi-Category 3D Shape Generation
HeadSculpt: Crafting 3D Head Avatars with Text
AI-enabled Automatic Multimodal Fusion of Cone-Beam CT and Intraoral Scans for Intelligent 3D Tooth-Bone Reconstruction and Clinical Applications
T$^3$Bench: Benchmarking Current Progress in Text-to-3D Generation
AvatarCLIP: Zero-Shot Text-Driven Generation and Animation of 3D Avatars
ArK: Augmented Reality with Knowledge Interactive Emergent Ability
AvatarFusion: Zero-shot Generation of Clothing-Decoupled 3D Avatars Using 2D Diffusion
SUG: Single-dataset Unified Generalization for 3D Point Cloud Classification
TextField3D: Towards Enhancing Open-Vocabulary 3D Generation with Noisy Text Fields
HumanNorm: Learning Normal Diffusion Model for High-quality and Realistic 3D Human Generation
DreamWaltz: Make a Scene with Complex 3D Animatable Avatars
Zero-Shot Text-Guided Object Generation with Dream Fields
ClipMatrix: Text-controlled Creation of 3D Textured Meshes
AvatarCraft: Transforming Text into Neural Human Avatars with Parameterized Shape and Pose Control
3D-TOGO: Towards Text-Guided Cross-Category 3D Object Generation
CG-NeRF: Conditional Generative Neural Radiance Fields for 3D-aware Image Synthesis
Shap-E: Generating Conditional 3D Implicit Functions
Instruct 3D-to-3D: Text Instruction Guided 3D-to-3D conversion
LERF: Language Embedded Radiance Fields
CLIP-Mesh: Generating textured meshes from text using pretrained image-text models
Chupa: Carving 3D Clothed Humans from Skinned Shape Priors using 2D Diffusion Probabilistic Models
DATID-3D: Diversity-Preserved Domain Adaptation Using Text-to-Image Diffusion for 3D Generative Model
PODIA-3D: Domain Adaptation of 3D Generative Model Across Large Domain Gap Using Pose-Preserved Text-to-Image Diffusion
MPE4G: Multimodal Pretrained Encoder for Co-Speech Gesture Generation
Decomposing NeRF for Editing via Feature Field Distillation
DreamHuman: Animatable 3D Avatars from Text
SALAD: Part-Level Latent Diffusion for 3D Shape Generation and Manipulation
Image-free Domain Generalization via CLIP for 3D Hand Pose Estimation
3DDesigner: Towards Photorealistic 3D Object Generation and Editing with Text-guided Diffusion Models
Audio2Gestures: Generating Diverse Gestures from Audio
Audio2Gestures: Generating Diverse Gestures from Speech Audio with Conditional Variational Autoencoders
AI Choreographer: Music Conditioned 3D Dance Generation with AIST++
3D-CLFusion: Fast Text-to-3D Rendering with Contrastive Latent Diffusion
3DQD: Generalized Deep 3D Shape Prior via Part-Discretized Diffusion Process
AV-NeRF: Learning Neural Fields for Real-World Audio-Visual Scene Synthesis
Magic3D: High-Resolution Text-to-3D Content Creation
CLIP-Layout: Style-Consistent Indoor Scene Synthesis with Semantic Furniture Embedding
3DALL-E: Integrating Text-to-Image AI in 3D Design Workflows
StructDiffusion: Language-Guided Creation of Physically-Valid Structures using Unseen Objects
DreamStone: Image as a Stepping Stone for Text-Guided 3D Shape Generation
ISS: Image as Stepping Stone for Text-Guided 3D Shape Generation
ATT3D: Amortized Text-to-3D Object Synthesis
Learning Versatile 3D Shape Generation with Improved AR Models
Revisiting Transformer for Point Cloud-based 3D Scene Graph Generation

이미 알려진, CLIP, STABLE DIFFUSION, TRANSFORMERS 모델을 코어로 사용한 것이 대부분이다.

세그먼테이션 된 포인트 클라우드

Image to Image 생성

AI, 컴퓨터, 소프트웨어 분야는 이렇게 새로운 기술이 오픈 저널과 코드 형태로 쏟아져 나온다. 그에 반해, 유명 건설, 건축 분야 저널들은 논문 하나 리뷰 받는 데 최소 수개월에서 일년가까이 걸린다. 아직, 까다롭게 체크하고 릴리즈하는 관행이 있어, 최신성과는 거리가 먼 구닥다리된 기술 논문이 시장에 출시된다.

국내 연구기관에서 인사고과에 적극 활용하는 SCIE 지표도 문제가 있다. 연구 결과물에 제대로 된 검증 없이 진행되는 평가 방식은 정량지표에만 집착한다. 인사고과에 굳이 저널 Q1, Q2 따져 점수를 매겨 놓는 데, 행정의 한 종류일 뿐인지라 논문 처리에 아까운 연구 시간만 낭비되는 경향이 많다(이 시간에 기술을 제대로 개발하는 게 나을 것이다. 심지어, 리뷰 후보자도 그 개발을 잘 알고 있는 사람이 드문 빨간펜 체점자인 경우가 많음).

사실, 몇몇 유명하고 까다로운 저널들의 게재 논문들을 잘 살펴보면, 품질(최신성, 차별성, 공헌성)의 편차가 심한 것을 확인할 수 있다. 저널 채택은 각 저널들의 정책(SCIE를 유지하기 위한 상위 규칙을 포함)들, 리뷰어와 편집자 성향에 따라 복잡하고 주관적으로 처리된다. 기술이 빠르게 발전하는 영역에서는 이런 유명 저널에 제출하면, 많은 리뷰 수정 시간을 날리고, 기회비용을 담보잡힌다. 이는 매우 불합리하고 불공평한 것이다(유명저널도 그들이 비난하는 APC 기반 오픈저널들과 똑같은 비지니스로 돈을 번다는 사실은 참 아이러니하다. 링크 참고 - Is the pay-to-publish model for open access pricing scientists out? | Science | AAAS).

레퍼런스

Awesome-Multimodal-in-3D: A comprehensive surevy on Multimodal Models in 3D
lidar-camera-fusion · GitHub Topics
How to Apply Transformers to Time Series Models
Time Series Forecasting with a Basic Transformer Model in PyTorch
Transformer Model in Time-Series Analysis with tsfresh, Mann-Whitney Test and Benjamini-Yekutieli procedure
Time Series Prediction with Transformers
bluestyle97/awesome-3d-reconstruction-papers: A collection of 3D reconstruction
point-cloud-segmentation
Efficient 3D Semantic Segmentation with Superpoint Transformer
OpenScene: 3D Scene Understanding with Open Vocabularies

추신. 직접 연구 개발 안하고, 다른 사람 만든 기술을 본인 것으로 포장하고 사고 친 일부 연구자들?로 인해 강한 관리위주로 설정된 R&D 정책이 앞으로 좋은 방향으로 변화할 리는 없을 것이다(일부 문제 연구자들로 인해 전체를 잠재적 세금 도둑으로 보는 자업자득 현상). 개인적으로는 인사 평가 절차가 필요하다면, 연구자가 개발한 기술과 산출물 위주로 arxir 같은 오픈저널에 내고, github 등에 산출물 투명하게 공개, 확인하는 것이, 국가나 산업 기술발전에 도움되는 가성비있는 평가 방법이라 생각한다(사람 불러 여러 개 과제들을 하루 만에 평가하는 국내 시스템. 제대로 돌아갈 리가 없다).

건설 분야 유명 저널에 제출하고, 리뷰 커멘트 하나하나 시간 투입해 수정하는 것이 무슨 의미가 있는지 가끔 생각이나서 글을 남긴다(사실, R&D는 이미 행정화된 지 오래된 지라, 논문 하나만의 문제는 아니다. 대부분 수많은 규정과 절차에 가려, 제대로 된 R&D는 보이지도 않는다. 그 전에 PBS 제도부터 고쳐야. 적다 보니 역시 한 두 개 문제만 해결된다고 제대로 시스템 돌아갈 수 있는 문제가 아니었다). - 2024.8.1

작성자: Daddy Maker 시간: 오전 8:05

이메일로 전송 BlogThis!X에 공유 Facebook에서 공유 Pinterest에 공유

라벨: 딥러닝

댓글 없음:

댓글 쓰기

최근 게시물 이전 게시물 홈

모바일 버전 보기

피드 구독하기: 댓글 (Atom)

프로필

Daddy Maker: www.linkedin.com/in/tae-wook-kang-64a83917 www.facebook.com/laputa999

전체 프로필 보기

전체 페이지뷰

Daddy Makers

로드 중입니다...

가장 많이 본 글

라즈베리파이 기반 딥러닝 객체 인식 개발 방법

이 글은 어느 분이 블로그로 문의한 내용도 정리할 겸 라즈베리파이 기반 딥러닝 객체 인식 개발 방법에 대한 내용을 간단히 요약해 공유한다. 사실, 이와 관련된 자료는 구글링을 하면 꽤 많이 검색된다. 참고로, OpenCV를 이용해 파이썬 기반...
우분투 블랙 스크린 문제 해결 방법

이 글은 고질적인 우분투 블랙 스크린(black screen) 문제 솔류션 트리를 간략히 요약한다. 이 문제는 우분투 부팅했는 데, 로그인 조차 안되는 검정색 화면만 보여지는 현상이다. 블랙 스크린 문제는 14.04, 16.04 모두 공통적으로 ...
YOLO v3 딥러닝모델 기반 사용자 데이터 라벨링, 훈련 및 객체인식 기술 개발방법

이 글은 YOLO v3 기반 시멘틱 객체 라벨링, 훈련 및 인식 기술 개발 방법을 간단히 다룬다. 참고로, YOLO v3는 이전 버전 욜로에 비해 정확도는 높아졌고, 속도는 다소 낮아 졌다. 이 글에서는 YOLO를 이용해 다음과 같이 건설 객체를 인식...
실행 코드로 이해하는 ICP(Iterative Closest Point) 알고리즘, 실행방법 및 SLAM과 차이점

이 글은 ICP(Iterative Closest Point) 알고리즘 및 실행방법을 설명한다. ICP는 카메라, 라이다 등을 통해 생성된 3차원 점군을 정합해 실내외 지도를 만드는 데 핵심적으로 활용되는 알고리즘이다. 대부분의 SLAM(Simultan...
벨로다인 LiDAR로 SLAM 만들기

이 글은 LiDAR(Light Detection and Ranging) 기반으로 SLAM 하는 방법을 간략히 설명한다. 슬램은 임의의 위치에서 상대적 거리를 측정할 수 있는 센서를 이용해 실시간으로 지도를 생성하는 기술이다. 이 기술은 무인자율차 등 ...
자율제어를 위한 PID 제어 개념 및 개발 방법

이 글에서는 PID 제어에 대해서 정리한다. PID는 액추에이터, 자율주행 차량, 로봇, 센서값 보정 등에 필수적인 함수로 사용된다. 1. 개요 PID제어는 목표로한 물리량을 자연스럽게 수렴시키는 제어 방법이다. 우리는 PID제어를 본능적으...
머신러닝 딥러닝 신경망 개념, 종류 및 개발

1~2년 사이에 오픈소스 머신러닝 딥러닝 프레임웍과 관련 자료들이 많아졌다. 오래전 필기체 인식을 위해, 다층 역전파 신경망을 구현했던 적이 있었는 데, 처리 속도가 매우 느렸었다. 현재는 성능 좋은 GPU, CPU 덕분에 그때 반나절 걸렸던 학습이 ...
라이노 메쉬에서 솔리드 NURBS 곡면 변환 방법

3D 스튜디오(3DS), 3차원 포인트 클라우드 스캔 장치, Tinker CAD(팅커캐드)와 같은 도구에서 생성된 메쉬 모델 파일(OBJ, STL 등)을 라이노(rhino)에서 편집하려면 솔리드 NURBS 모델로 변환해야 하는 일이 생긴다. 이...
딥러닝 기반 실시간 객체 인식 YOLO v5 설치 및 사용기

이 글은 우분투 20.04기반 YOLO v5 설치 및 사용 방법을 간단히 기술한다. YOLO v5는 PyTorch기반으로 동작하며, 기존 YOLO v3보다 객체 인식 속도 및 품질이 크게 개선되었다. YOLO v5 성능 2020년 불과 몇 개월 사이...
아두이노 기반 6 DoF 로봇암 조립 방법 및 제어

오늘은 6축의 자유도를 가진 6 DoF (자유도) Robot Arm Kit 조립 및 개발 방법을 정리해 본다. 6축 자유도는 사람의 팔 구조와 매우 유사한 동작을 할 수 있다. 사용할 로봇암은 Oak Studio 6 DoF (필요하다면 구글링...

팔로어

글

Atom

글

Atom

블로그 보관함

► 2025 (25)
- ► 6월 (7)
- ► 5월 (1)
- ► 4월 (3)
- ► 3월 (5)
- ► 2월 (1)
- ► 1월 (8)

▼ 2024 (63)
- ► 12월 (1)
- ► 11월 (2)
- ► 10월 (5)
- ► 9월 (4)
- ► 8월 (2)
- ▼ 7월 (6)
- ► 6월 (12)
- ► 5월 (5)
- ► 4월 (5)
- ► 3월 (8)
- ► 2월 (13)

► 2023 (41)
- ► 12월 (7)
- ► 10월 (2)
- ► 9월 (4)
- ► 8월 (3)
- ► 7월 (4)
- ► 5월 (2)
- ► 4월 (8)
- ► 3월 (5)
- ► 2월 (5)
- ► 1월 (1)

► 2022 (26)
- ► 12월 (5)
- ► 11월 (6)
- ► 10월 (1)
- ► 8월 (1)
- ► 7월 (2)
- ► 6월 (1)
- ► 5월 (2)
- ► 4월 (1)
- ► 3월 (2)
- ► 2월 (5)

► 2021 (51)
- ► 12월 (1)
- ► 11월 (5)
- ► 10월 (7)
- ► 9월 (4)
- ► 8월 (2)
- ► 7월 (5)
- ► 6월 (2)
- ► 5월 (5)
- ► 4월 (6)
- ► 3월 (3)
- ► 2월 (8)
- ► 1월 (3)

► 2020 (75)
- ► 12월 (1)
- ► 11월 (3)
- ► 10월 (5)
- ► 9월 (10)
- ► 8월 (1)
- ► 7월 (6)
- ► 6월 (3)
- ► 5월 (4)
- ► 4월 (8)
- ► 3월 (6)
- ► 2월 (14)
- ► 1월 (14)

► 2019 (48)
- ► 12월 (7)
- ► 11월 (3)
- ► 10월 (4)
- ► 9월 (12)
- ► 8월 (2)
- ► 7월 (3)
- ► 6월 (7)
- ► 5월 (4)
- ► 4월 (3)
- ► 2월 (2)
- ► 1월 (1)

► 2018 (30)
- ► 12월 (3)
- ► 11월 (2)
- ► 10월 (1)
- ► 9월 (3)
- ► 7월 (2)
- ► 6월 (3)
- ► 5월 (2)
- ► 3월 (3)
- ► 2월 (7)
- ► 1월 (4)

► 2017 (32)
- ► 12월 (5)
- ► 9월 (3)
- ► 7월 (4)
- ► 6월 (8)
- ► 5월 (4)
- ► 4월 (1)
- ► 2월 (2)
- ► 1월 (5)

► 2016 (47)
- ► 12월 (6)
- ► 11월 (4)
- ► 7월 (4)
- ► 6월 (7)
- ► 5월 (2)
- ► 4월 (9)
- ► 3월 (4)
- ► 2월 (7)
- ► 1월 (4)

► 2015 (62)
- ► 11월 (2)
- ► 10월 (4)
- ► 9월 (12)
- ► 8월 (21)
- ► 7월 (22)
- ► 6월 (1)

Creative commons - CC BY (강태욱). Stay Hungry. Stay Foolish. 풍경 테마. Powered by Blogger.