https://www.sigarch.org/to-measure-is-to-know-breaking-down-datacenter-power-consumption/
energy 관심 커졌고 household 전력도 AI workload 때문에 늘고 산업계에서도 계속 발표 중
근데 datacenter energy footprint 측정하는 명확한 metric 없어서 얘기해보겠음
The Blind Spot in Our Metrics
기존에 Power Usage Effectiveness (PUE) - IT 장비에서 사용되는 power / 전체 facility power 이걸로 썼음
대규모 datacenter들은 이거로 cooling이나 power conversion 등의 비효율 강조하는 수단이고 잘 해옴
Underutilized Silicon
그러나 실제 IT service에 대해서는 효과적으로 나타내지 못함. 서비스 자체의 전력 효율은 뒷전이었다.
실제 특정 서비스가 더 많은 전력을 소모할수록 (skewed?) PUE는 오히려 더 좋게 나올 것
실제로도 over provisioning 문제가 있었다는 듯?
Non-IT electricity
서비스 외적으로 파워 소비 있음 PSU나 fans 등. 다행히 power supply unit 효율은 표준에 의해 효율 관리 됨.
그러나 fan은 서버 로드나 WL 타입에 따라 5-15% 정도 전력 소비 주체인데 PUE 쓸 때 안맞음.
PUE는 온도가 높을수록 좋게나와서 팬전력 사용이 PUE를 왜곡함
What Should We Be Measuring?
“To measure is to know”, Here’s a starting point:
IT electricity: computation, 통신, storage에 대한 direct electricity 측정하는 메카니즘 필요.
직접 측정 어렵지만 utilization 활용하여 수립 가능
Idle electricity: idle 수준을 알아야지 utilization threshold 수립 가능
Non-IT electricity: fan power는 어려워도 fan speed는 있음. 이거랑 power supply units의 파워 소비 기반으로