-
Notifications
You must be signed in to change notification settings - Fork 3
Open
Description
Spatial AI 스터디
- https://github.com/Pseudo-Lab/spatial-ai-study
- Object / Semantic SLAM 또는 Scene graph SLAM
Interesting papers
- Latent Radiance Fields with 3D-aware 2D Representations
- https://arxiv.org/abs/2502.09613
- https://latent-radiance-field.github.io/LRF/
- 고화질 이미지 렌더링이 가능한 3D latent representation 만들기
- Stage 1: VAE encoder + novel correspondence-aware constraint
- Stage 2: Latent radiance field (LRF)
- Stage 3: Latent image 렌더링 이후 decoding.
- 장점: Real world 3D recon 에도 사용 가능하고, generation에도 사용 가능하다.
- Robust Autonomy Emerges from Self-Play
- https://arxiv.org/pdf/2502.03349
- Vladlen Koltun 주도의 연구
- Self-play reinforcement learning : 멀티플레이어 게임 속 multi-agent가 서로 상호작용하며 학습하는 방법 (i.e. multi-agent 강화학습)
- 환경은 어떻게 만들었는가? -> Gigaflow (8-GPU node 1개 사용). 1 시간에 7.2 million km 주행 데이터 (약 42년의 주행 데이터) 생성 가능. 동시에 150개의 agent 데이터를 운용하며, 실제 시간보다 36만배 빠르고, 1 million km 마다 약 $5 소요됨
- 1.6 billion km를 (약 9500년) 주행하며 학습했더니 운전을 잘 하더라~ 어느정도로? 사고마다 평균 3 million km (17.5년)의 갭이 생길정도로 (사람은 미국에서 빈 도로에서는 평균 80만 km 마다, 샌프란시스코에서는 평균 2만5천 km 마다 사고가 남). 트레이닝 시간은 8-GPU node 하나로 10일 정도 걸림.
- 눈 여겨볼 점 1: 모든 agent가 '동일 뉴럴넷 + 동일 weight'로 학습되나, 모두 randomized reward 및 차량 타입과 운전자 성향에 (e.g. 운전 공격성) 따라 conditioning vector가 다르게 들어감.
- 눈 여겨볼 점 2: Bird's eye view에서 만든 시뮬레이션이라, occlusion 같은거 없음! 그래서 실제에서 못씀!!! 대신 nearby agent의 위치에 대해 random noise corruption을 이용함.
- 눈 여겨볼 점 3: 단 한번도 '사람이 운전'하는걸 본적이 없지만, 강화학습으로 마치 사람처럼 운전할 수 있게 됨 (비보호 좌회전, 사람과 차가 뒤섞인 도로에서 운전, 급하게 껴드는 자동차 피하기). 공격성이 높으면 불법 유턴과 같은 공격적인 운전 방법도 익힐 수 있고, 공격성이 낮으면 불법 유턴보다는 한 블록을 돌아오는 방법을 하기도 함.

- Continuous 3D Perception Model with Persistent State
Metadata
Metadata
Assignees
Labels
No labels