Skip to content

2025.07.30 - #44 - Feed-forward 3D recon survey, ThinkAct, ROMAN, UA-MPC, TurboClique #46

@changh95

Description

@changh95

Interesting papers

Advances in Feed-Forward 3D Reconstruction and View Synthesis: A Survey

Image

ThinkAct: Vision-Language-Action Reasoning via Reinforced Visual Latent Planning

  • https://jasper0314-huang.github.io/thinkact-vla/
  • 기존의 VLA 모델은 단순히 Input->output 맵핑 형태임
  • ThinkAct는 Multi-modal reasoning LLM을 사용해서 trajectory/action에 대한 latent variable을 생성하는데, 이걸 downstream에 있는 action model에 넣으면 trajectory가 나온다.
  • 여기서 Multi-modal reasoning LLM이 latent variable을 잘 생성해줘야 좋은 trajectory가 나올텐데, 이건 visual 데이터로 평가하는 goal reward + trajectory reward를 이용한 강화학습 (GRPO)를 이용해서 LLM을 학습한다.

Image

ROMAN

Metadata

Metadata

Assignees

Labels

No labels
No labels

Projects

No projects

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

Issue actions