SEMICON JAPAN, AI Chip Complexity Drives Tester Demand_ Memory Chips in Focus.pdf
AI Inference
AI workload는 taining에서 inference로 이동하고 AI model은 KV cache 기반으로 context 유지 함
문맥 유지 더 많이 해야될수록 용량 기하급수적으로 증가. KV 캐시 크기가 8000 or 16000 토근으로 확장될 경우 HBM 수요 폭증. inference는 메모리 바운드고, KV cache access는 random + latency-sensitive 특성이라 capacity 증가만으로 안됨
정리하면 training은 model size 증가 → compute 증가라는 비교적 단순한 관계가 성립하지만 inference에서는 context length 증가가 memory traffic만 폭발적으로 증가시키고 bandwidth 재앙이다는 것
그래서 GPU utilization 저하는 메모리 병목이다. 메모리 투자는 ROI가 매우 높다
DRAM 벤터 관점에서는 단순 공급 확대보다 bandwidth-per-watt, per-dollar 개선이 주요 경쟁 요소
일본? (Preferred Network)는 near-memory computing, bandwidth-centric design으로 energy efficient한 inference 특화 architecture “Memory Bandwidth is All You Need” 근데 server 보단 client나 edge를 target하는 듯
Preferred Networks
→ shared는 provisioning 관점에서 효율적이지만 distributed 대비 bandwidth scalability가 제한적임
Chip tester