Skip to content

2025.07.16 - #42 - PRoPE, VGGT-Long, Pangu Ultra MoE, GPU/NPU Simulator, WorldVLA #44

@changh95

Description

@changh95

Interesting papers

1. Cameras as Relative Positional Encoding (PRoPE)

  • 이미지를 이용해서 3D 추론을 하려는 트랜스포머 네트워크가 많아짐. 이러한 아키텍처에서 카메라 정보를 어떻게 제공하는가에 대한 질문이 생김.
  • LLM에서는 주로 1D position encoding 또는 RoPE (rotary position encoding)을 통해 토큰의 위치 정보를 제공하는데,
  • 이를 변형해서 Relative pose(position) encoding 으로 변경함 (PRoPE)
  • 결과적으로 Novel view synthesis와 Stereo depth estimation의 결과가 향상됨
  • https://www.liruilong.cn/prope/
  • https://github.com/liruilong940607/prope?tab=readme-ov-file
Image

2. VGGT-Long: Chunk it, Loop it, Align it – Pushing VGGT’s Limits on Kilometer-scale Long RGB Sequences

Image Image

Metadata

Metadata

Labels

No labels
No labels

Projects

No projects

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

Issue actions