https://www.sigarch.org/to-measure-is-to-know-breaking-down-datacenter-power-consumption/

energy 관심 커졌고 household 전력도 AI workload 때문에 늘고 산업계에서도 계속 발표 중

근데 datacenter energy footprint 측정하는 명확한 metric 없어서 얘기해보겠음

The Blind Spot in Our Metrics

기존에 Power Usage Effectiveness (PUE) - IT 장비에서 사용되는 power / 전체 facility power 이걸로 썼음

대규모 datacenter들은 이거로 cooling이나 power conversion 등의 비효율 강조하는 수단이고 잘 해옴

Underutilized Silicon

그러나 실제 IT service에 대해서는 효과적으로 나타내지 못함. 서비스 자체의 전력 효율은 뒷전이었다.

실제 특정 서비스가 더 많은 전력을 소모할수록 (skewed?) PUE는 오히려 더 좋게 나올 것

실제로도 over provisioning 문제가 있었다는 듯?

Non-IT electricity

서비스 외적으로 파워 소비 있음 PSU나 fans 등. 다행히 power supply unit 효율은 표준에 의해 효율 관리 됨.

그러나 fan은 서버 로드나 WL 타입에 따라 5-15% 정도 전력 소비 주체인데 PUE 쓸 때 안맞음.

PUE는 온도가 높을수록 좋게나와서 팬전력 사용이 PUE를 왜곡함

What Should We Be Measuring?

“To measure is to know”, Here’s a starting point: