Skip to content

2025.03.19 - #28 - KISS-SLAM, NVIDIA Spark, RoboSense E1R review, VGGT, RelationField, CUDA study #30

@changh95

Description

@changh95

Interesting papers

KISS-SLAM: A Simple, Robust, and Accurate 3D LiDAR SLAM System With Enhanced Generalization Capabilities

Image Image Image

NVIDIA Spark

  • 10 Performance ARM core, 10 Efficiency ARM core
  • 1000 AI TOPS (FP4)
  • 128GB LPDDR5x Unified Memory, 273GB/s bandwidth
  • 1/4 TB SSD
  • 170W Power consumption
  • Serve 405B model with 2 Sparks

Image

Image

가격 효율성 분석

  • Spark: $3000 / 128 = $23.4 / GB
  • 근데 애초에 H100의 HBM과 LPDDR을 비교하는건 말이 안된다...

<사진 출처 : 안될공학 YouTube>

  • 메모리는 AMD나 Apple M3 Ultra가 H100 등등보다 큼
  • Apple M3 Ultra는 H100에 비교해서 훨씬 저렴함.
  • 그러면 Apple M3 Ultra가 더 좋은거 아닌가?
Image
  • 사실 Memory bandwith 로 비교해보면 Apple M3 Ultra가 좋은건 아님. 가격 효율성이 낮음.
Image Image
  • 근데 M3 Ultra에서 막상 LLM 돌려보면 생각보다 굉장히 빠름.
  • 왜 빠른가?
  • Apple M3 Ultra는 batch size 를 1로 고정시켜서, 다수의 데이터를 빠르게 돌리는게 아니라, 1개의 데이터만 빠르게 돌리는거임.
  • Batch size가 1이면 refresh rate가 굉장히 낮아져서, low-latency response가 가능함.
  • 대신, 다수의 유저가 동시에 call을 하면 느려질 수 있음.
  • 즉, 다수의 유저를 서빙하려면 H100이 좋다. 혼자 쓰거나 / 적은 유저 수로 쓰려면 M3 Ultra로 충분하다.
  • Spark는 좀 더 봐야알겠지만, unified memory를 사용하니 아마 batch size 1로 해서 low-latency response가 가능하게 만들지 않았을까 생각한다.
Image

메모리의 종류

Image

Metadata

Metadata

Labels

No labels
No labels

Projects

No projects

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

Issue actions