프로모션 트래픽에서 origin 부하가 구매 경험을 방해하는 순간
가장 많은 고객이 모이는 순간 페이지가 느려지는 이유를 cache MISS, origin 응답, 봇 트래픽 관점에서 정리합니다.
핵심 먼저
마케팅이 성공할수록 페이지가 느려진다면, 많은 요청이 원본 서버까지 직접 도달하고 있을 가능성이 큽니다.
문제
프로모션 오픈 직후 페이지가 가장 느려지면 마케팅팀과 인프라팀 모두 곤란해집니다. 광고비와 알림 발송으로 고객을 모았는데, 정작 구매 의도가 가장 높은 순간에 상품 상세와 기획전이 늦게 뜹니다. 고객은 이벤트가 성공해서 사람이 몰렸다는 사실을 알지 못합니다. 그냥 사이트가 느리다고 느끼고 떠납니다.
이 문제는 평소에는 잘 보이지 않습니다. 평시 트래픽에서는 origin 서버가 버티고, CDN 캐시도 충분히 동작하는 것처럼 보입니다. 하지만 오픈 직후에는 캐시가 비어 있거나, 같은 리소스에 요청이 동시에 몰리거나, 봇과 크롤러가 함께 들어옵니다. 그 결과 가장 중요한 순간에 원본 서버가 반복 요청을 직접 받게 됩니다.
프로모션 속도 문제는 서버 증설만으로 풀기 어렵습니다. 피크 기준으로만 인프라를 늘리면 비용이 커지고, 피크가 끝나면 대부분 유휴 자원이 됩니다. 더 중요한 것은 반복 요청을 원본까지 보내지 않는 구조, 캐시가 비었을 때도 원본을 보호하는 구조, 봇 트래픽을 구분하는 구조입니다.
원인
이벤트 트래픽은 같은 페이지와 같은 이미지를 반복해서 요청하는 비중이 높습니다. 기획전 메인, 대표 상품 상세, 쿠폰 배너, 썸네일 이미지가 짧은 시간에 반복 호출됩니다. 이 요청이 엣지에서 처리되면 origin 부하는 낮아지지만, 캐시 MISS가 많거나 cache key가 지나치게 세분화되어 있으면 원본으로 요청이 흘러갑니다.
오픈 직후에는 "thundering herd" 문제가 생길 수 있습니다. 캐시에 없는 리소스를 수많은 사용자가 동시에 요청하면, 같은 원본 리소스에 대한 요청이 여러 번 origin으로 들어갑니다. 여기에 봇, 가격 비교 크롤러, 검색 엔진, 모니터링 트래픽이 섞이면 사람이 만든 구매 트래픽과 기계 트래픽이 같은 자원을 두고 경쟁합니다.
흔한 오해는 서버 CPU나 메모리만 보면 된다는 것입니다. 실제로는 origin response time, cache HIT ratio, MISS 시 동시 요청 처리 방식, 4xx/5xx 비율, 봇 비율을 함께 봐야 합니다. 서버는 죽지 않았지만 고객 경험은 이미 느려질 수 있습니다.
해결
프로모션 전에는 대표 URL 목록을 먼저 정해야 합니다. 기획전 메인, 상위 상품 상세, 대표 이미지, 쿠폰·배너 리소스를 분리하고, 각각 캐시 가능 여부와 TTL을 확인합니다. 교체 가능성이 높은 배너와 오래 유지되는 상품 이미지를 같은 정책으로 두면 운영이 어렵습니다.
내부 조치로는 캐시 워밍, 적절한 TTL, purge 절차, cache key 정리, 봇 트래픽 확인이 있습니다. 이벤트 전후로 origin response time과 cache HIT ratio를 비교하고, 오픈 직후 MISS 폭증이 있는지 봅니다. 봇 요청은 user-agent만 보지 말고 요청 빈도, 경로 패턴, 쿠키 여부, 캐시 우회 여부를 같이 봐야 합니다.
M2 Live Cloud 관점에서는 세 겹으로 방어합니다. 반복 요청은 Edge Cache가 먼저 받아내고, 캐시가 비어 있을 때는 origin shield나 동시 요청 제어로 원본을 보호합니다. 봇과 크롤러는 점수와 정책에 따라 캐시만 내주거나 차단합니다. 핵심은 고객이 몰리는 순간 원본 서버가 모든 요청을 직접 상대하지 않게 만드는 것입니다.
지금 실행
- 직접 확인: 최근 프로모션 시간대의 cache HIT ratio, origin response time, 5xx 비율, 상위 요청 URL을 정리하세요. 오픈 직후 10분과 평시 10분을 나란히 비교하면 병목이 드러납니다.
- 내부 조치: 다음 이벤트 전 대표 URL을 정해 캐시 워밍 가능 여부를 확인하고, 배너·이미지·HTML의 TTL과 purge 절차를 분리하세요. 봇 트래픽은 상위 IP나 user-agent보다 요청 패턴 기준으로 봐야 합니다.
- 구조 검토: 캐시 MISS가 몰릴 때 원본 보호 장치가 없거나, 봇이 원본까지 도달하거나, 이벤트마다 같은 병목이 반복된다면 전송 계층 설계가 필요합니다. 이 경우 전담 AM 상담 전에 내부 로그로 피크 시간대 기준값을 준비해두면 논의가 빨라집니다.