# Interesting papers ## 1. Cameras as Relative Positional Encoding (PRoPE) - 이미지를 이용해서 3D 추론을 하려는 트랜스포머 네트워크가 많아짐. 이러한 아키텍처에서 카메라 정보를 어떻게 제공하는가에 대한 질문이 생김. - LLM에서는 주로 1D position encoding 또는 RoPE (rotary position encoding)을 통해 토큰의 위치 정보를 제공하는데, - 이를 변형해서 Relative pose(position) encoding 으로 변경함 (PRoPE) - 결과적으로 Novel view synthesis와 Stereo depth estimation의 결과가 향상됨 - https://www.liruilong.cn/prope/ - https://github.com/liruilong940607/prope?tab=readme-ov-file <img width="1876" height="596" alt="Image" src="https://github.com/user-attachments/assets/c033857c-24eb-4f68-9c9e-ed7b52aa59ee" /> ## 2. VGGT-Long: Chunk it, Loop it, Align it – Pushing VGGT’s Limits on Kilometer-scale Long RGB Sequences - https://github.com/DengKaiCQ/VGGT-Long - <img width="2380" height="1394" alt="Image" src="https://github.com/user-attachments/assets/8f461b28-c37c-4269-a74c-82719f12fec5" /> <img width="2366" height="774" alt="Image" src="https://github.com/user-attachments/assets/2f002aad-437d-40fc-97d0-6bffac570376" />