이 글은 다양한 생성AI 아키텍처 모델을 설명한 레퍼런스를 정리한다.
다음은 2022년부터 3D, 이미지 분야 생성AI 기술 리스트를 정리한 것이다. TEXT-TO-3D, IMAGE, AUDIO 등 다양하다.
- LivePortrait: Bring portraits to life
- CLIP-Sculptor: Zero-Shot Generation of High-Fidelity and Diverse Shapes from Natural Language
- SINC: Spatial Composition of 3D Human Motions for Simultaneous Action Generation
- Make-An-Animation: Large-Scale Text-conditional 3D Human Motion Generation
- Articulated 3D Head Avatar Generation using Text-to-Image Diffusion Models
- Multimodal 3D Hand Pose Enhancement for Sign Language
- Text and Image Guided 3D Avatar Generation and Manipulation
- TexFusion: Synthesizing 3D Textures with Text-Guided Image Diffusion Models
- DreamAvatar: Text-and-Shape Guided 3D Human Avatar Generation via Diffusion Models
- Guide3D: Create 3D Avatars from Text and Image Guidance
- High-Fidelity Generalized Emotional Talking Face Generation with Multi-Modal Emotion Space Learning
- MRIS: A Multi-modal Retrieval Approach for Image Synthesis on Diverse Modalities
- Text2Tex: Text-driven Texture Synthesis via Diffusion Models
- Fantasia3D: Disentangling Geometry and Appearance for High-quality Text-to-3D Content Creation
- Text2Light: Zero-Shot Text-Driven HDR Panorama Generation
- Text-to-3D using Gaussian Splatting
- Autoregressive 3D Shape Generation via Canonical Mapping
- SDFusion: Multimodal 3D Shape Completion, Reconstruction, and Generation
- Efficient Text-Guided 3D-Aware Portrait Generation with Score Distillation Sampling on Distribution
- Cross-Modal 3D Shape Generation and Manipulation
- ITportrait: Image-Text Coupled 3D Portrait Domain Adaptation
- FaceFormer: Speech-Driven 3D Facial Animation with Transformers
- Ctrl-Room: Controllable Text-to-3D Room Meshes Generation with Layout Constraints
- Text-guided 3D Human Generation from 2D Collections
- TM2D: Bimodality Driven 3D Dance Generation via Music-Text Integration
- Semantify: Simplifying the Control of 3D Morphable Models using CLIP
- Point-Bind & Point-LLM: Aligning Point Cloud with Multi-modality for 3D Understanding, Generation, and Instruction Following
- Zero3D: Semantic-Driven Multi-Category 3D Shape Generation
- HeadSculpt: Crafting 3D Head Avatars with Text
- AI-enabled Automatic Multimodal Fusion of Cone-Beam CT and Intraoral Scans for Intelligent 3D Tooth-Bone Reconstruction and Clinical Applications
- T$^3$Bench: Benchmarking Current Progress in Text-to-3D Generation
- AvatarCLIP: Zero-Shot Text-Driven Generation and Animation of 3D Avatars
- ArK: Augmented Reality with Knowledge Interactive Emergent Ability
- AvatarFusion: Zero-shot Generation of Clothing-Decoupled 3D Avatars Using 2D Diffusion
- SUG: Single-dataset Unified Generalization for 3D Point Cloud Classification
- TextField3D: Towards Enhancing Open-Vocabulary 3D Generation with Noisy Text Fields
- HumanNorm: Learning Normal Diffusion Model for High-quality and Realistic 3D Human Generation
- DreamWaltz: Make a Scene with Complex 3D Animatable Avatars
- Zero-Shot Text-Guided Object Generation with Dream Fields
- ClipMatrix: Text-controlled Creation of 3D Textured Meshes
- AvatarCraft: Transforming Text into Neural Human Avatars with Parameterized Shape and Pose Control
- 3D-TOGO: Towards Text-Guided Cross-Category 3D Object Generation
- CG-NeRF: Conditional Generative Neural Radiance Fields for 3D-aware Image Synthesis
- Shap-E: Generating Conditional 3D Implicit Functions
- Instruct 3D-to-3D: Text Instruction Guided 3D-to-3D conversion
- LERF: Language Embedded Radiance Fields
- CLIP-Mesh: Generating textured meshes from text using pretrained image-text models
- Chupa: Carving 3D Clothed Humans from Skinned Shape Priors using 2D Diffusion Probabilistic Models
- DATID-3D: Diversity-Preserved Domain Adaptation Using Text-to-Image Diffusion for 3D Generative Model
- PODIA-3D: Domain Adaptation of 3D Generative Model Across Large Domain Gap Using Pose-Preserved Text-to-Image Diffusion
- MPE4G: Multimodal Pretrained Encoder for Co-Speech Gesture Generation
- Decomposing NeRF for Editing via Feature Field Distillation
- DreamHuman: Animatable 3D Avatars from Text
- SALAD: Part-Level Latent Diffusion for 3D Shape Generation and Manipulation
- Image-free Domain Generalization via CLIP for 3D Hand Pose Estimation
- 3DDesigner: Towards Photorealistic 3D Object Generation and Editing with Text-guided Diffusion Models
- Audio2Gestures: Generating Diverse Gestures from Audio
- Audio2Gestures: Generating Diverse Gestures from Speech Audio with Conditional Variational Autoencoders
- AI Choreographer: Music Conditioned 3D Dance Generation with AIST++
- 3D-CLFusion: Fast Text-to-3D Rendering with Contrastive Latent Diffusion
- 3DQD: Generalized Deep 3D Shape Prior via Part-Discretized Diffusion Process
- AV-NeRF: Learning Neural Fields for Real-World Audio-Visual Scene Synthesis
- Magic3D: High-Resolution Text-to-3D Content Creation
- CLIP-Layout: Style-Consistent Indoor Scene Synthesis with Semantic Furniture Embedding
- 3DALL-E: Integrating Text-to-Image AI in 3D Design Workflows
- StructDiffusion: Language-Guided Creation of Physically-Valid Structures using Unseen Objects
- DreamStone: Image as a Stepping Stone for Text-Guided 3D Shape Generation
- ISS: Image as Stepping Stone for Text-Guided 3D Shape Generation
- ATT3D: Amortized Text-to-3D Object Synthesis
- Learning Versatile 3D Shape Generation with Improved AR Models
- Revisiting Transformer for Point Cloud-based 3D Scene Graph Generation
세그먼테이션 된 포인트 클라우드
AI, 컴퓨터, 소프트웨어 분야는 이렇게 새로운 기술이 오픈 저널과 코드 형태로 쏟아져 나온다. 그에 반해, 유명 건설, 건축 분야 저널들은 논문 하나 리뷰 받는 데 최소 수개월에서 일년가까이 걸린다. 아직, 까다롭게 체크하고 릴리즈하는 관행이 있어, 최신성과는 거리가 먼 구닥다리된 기술 논문이 시장에 출시된다.
국내 연구기관에서 인사고과에 적극 활용하는 SCIE 지표도 문제가 있다. 연구 결과물에 제대로 된 검증 없이 진행되는 평가 방식은 정량지표에만 집착한다. 인사고과에 굳이 저널 Q1, Q2 따져 점수를 매겨 놓는 데, 행정의 한 종류일 뿐인지라 논문 처리에 아까운 연구 시간만 낭비되는 경향이 많다(이 시간에 기술을 제대로 개발하는 게 나을 것이다. 심지어, 리뷰 후보자도 그 개발을 잘 알고 있는 사람이 드문 빨간펜 체점자인 경우가 많음).
사실, 몇몇 유명하고 까다로운 저널들의 게재 논문들을 잘 살펴보면, 품질(최신성, 차별성, 공헌성)의 편차가 심한 것을 확인할 수 있다. 저널 채택은 각 저널들의 정책(SCIE를 유지하기 위한 상위 규칙을 포함)들, 리뷰어와 편집자 성향에 따라 복잡하고 주관적으로 처리된다. 기술이 빠르게 발전하는 영역에서는 이런 유명 저널에 제출하면, 많은 리뷰 수정 시간을 날리고, 기회비용을 담보잡힌다. 이는 매우 불합리하고 불공평한 것이다(유명저널도 그들이 비난하는 APC 기반 오픈저널들과 똑같은 비지니스로 돈을 번다는 사실은 참 아이러니하다. 링크 참고 - Is the pay-to-publish model for open access pricing scientists out? | Science | AAAS).
레퍼런스
건설 분야 유명 저널에 제출하고, 리뷰 커멘트 하나하나 시간 투입해 수정하는 것이 무슨 의미가 있는지 가끔 생각이나서 글을 남긴다(사실, R&D는 이미 행정화된 지 오래된 지라, 논문 하나만의 문제는 아니다. 대부분 수많은 규정과 절차에 가려, 제대로 된 R&D는 보이지도 않는다. 그 전에 PBS 제도부터 고쳐야. 적다 보니 역시 한 두 개 문제만 해결된다고 제대로 시스템 돌아갈 수 있는 문제가 아니었다). - 2024.8.1
- Awesome-Multimodal-in-3D: A comprehensive surevy on Multimodal Models in 3D
- lidar-camera-fusion · GitHub Topics
- How to Apply Transformers to Time Series Models
- Time Series Forecasting with a Basic Transformer Model in PyTorch
- Transformer Model in Time-Series Analysis with tsfresh, Mann-Whitney Test and Benjamini-Yekutieli procedure
- Time Series Prediction with Transformers
- bluestyle97/awesome-3d-reconstruction-papers: A collection of 3D reconstruction
- point-cloud-segmentation
- Efficient 3D Semantic Segmentation with Superpoint Transformer
- OpenScene: 3D Scene Understanding with Open Vocabularies
추신. 직접 연구 개발 안하고, 다른 사람 만든 기술을 본인 것으로 포장하고 사고 친 일부 연구자들?로 인해 강한 관리위주로 설정된 R&D 정책이 앞으로 좋은 방향으로 변화할 리는 없을 것이다(일부 문제 연구자들로 인해 전체를 잠재적 세금 도둑으로 보는 자업자득 현상). 개인적으로는 인사 평가 절차가 필요하다면, 연구자가 개발한 기술과 산출물 위주로 arxir 같은 오픈저널에 내고, github 등에 산출물 투명하게 공개, 확인하는 것이, 국가나 산업 기술발전에 도움되는 가성비있는 평가 방법이라 생각한다(사람 불러 여러 개 과제들을 하루 만에 평가하는 국내 시스템. 제대로 돌아갈 리가 없다).
댓글 없음:
댓글 쓰기