You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
ThinkAct는 Multi-modal reasoning LLM을 사용해서 trajectory/action에 대한 latent variable을 생성하는데, 이걸 downstream에 있는 action model에 넣으면 trajectory가 나온다.
여기서 Multi-modal reasoning LLM이 latent variable을 잘 생성해줘야 좋은 trajectory가 나올텐데, 이건 visual 데이터로 평가하는 goal reward + trajectory reward를 이용한 강화학습 (GRPO)를 이용해서 LLM을 학습한다.