-
Notifications
You must be signed in to change notification settings - Fork 3
Open
Description
Interesting papers
KISS-SLAM: A Simple, Robust, and Accurate 3D LiDAR SLAM System With Enhanced Generalization Capabilities



NVIDIA Spark
- 10 Performance ARM core, 10 Efficiency ARM core
- 1000 AI TOPS (FP4)
- 128GB LPDDR5x Unified Memory, 273GB/s bandwidth
- 1/4 TB SSD
- 170W Power consumption
- Serve 405B model with 2 Sparks

가격 효율성 분석
- Spark: $3000 / 128 = $23.4 / GB
- 근데 애초에 H100의 HBM과 LPDDR을 비교하는건 말이 안된다...
<사진 출처 : 안될공학 YouTube>
- 메모리는 AMD나 Apple M3 Ultra가 H100 등등보다 큼
- Apple M3 Ultra는 H100에 비교해서 훨씬 저렴함.
- 그러면 Apple M3 Ultra가 더 좋은거 아닌가?

- 사실 Memory bandwith 로 비교해보면 Apple M3 Ultra가 좋은건 아님. 가격 효율성이 낮음.


- 근데 M3 Ultra에서 막상 LLM 돌려보면 생각보다 굉장히 빠름.
- 왜 빠른가?
- Apple M3 Ultra는 batch size 를 1로 고정시켜서, 다수의 데이터를 빠르게 돌리는게 아니라, 1개의 데이터만 빠르게 돌리는거임.
- Batch size가 1이면 refresh rate가 굉장히 낮아져서, low-latency response가 가능함.
- 대신, 다수의 유저가 동시에 call을 하면 느려질 수 있음.
- 즉, 다수의 유저를 서빙하려면 H100이 좋다. 혼자 쓰거나 / 적은 유저 수로 쓰려면 M3 Ultra로 충분하다.
- Spark는 좀 더 봐야알겠지만, unified memory를 사용하니 아마 batch size 1로 해서 low-latency response가 가능하게 만들지 않았을까 생각한다.

메모리의 종류
Metadata
Metadata
Assignees
Labels
No labels