Abstract
- Microservice architecture는 현대 서비스 중심 SW 시스템의 핵심인데, RPC의 복잡하고 비동기적 특성 때문에 Top-level request의 latency 영향은 알기 어려움
- 현대 Tool은 부족하고, 정교하고 bottleneck 등 정확한 진단이 가능한 tool 필요하여 critical path analysis (CPA)를 수행하는 CRISP 제공 - 3가지 방식 (top-down, bottom-up and on-the-fly anomaly detection)
- ~40K endpoint를 가진 uber 전체 backend 시스템에 적용해서 1억 명 이상 user의 실시간 request 처리하여, 4개 병목 찾고 training 28배 inference 67배 개선
1 Introduction
2 Motivating Example for CRISP
3 Background
3.1 Distributed Tracing at Uber
3.2 Difficulties with Large-Scale Jaeger Traces
4 CRISP Methodology
5 Critical Path Analysis
5.1 Deriving Critical Path from a Single Trace
5.1.1 Critical Path Algorithm
5.2 Challenges with the Clock Drift
5.3 Aggregating Critical Paths
5.4 Workflow for Continuous CPA
6 CRISP Features
6.1 Top-Down Analysis
6.2 Bottom-Up Analysis
6.3 Anomaly Detection