최근 PostgreSQL 운용 중에 큰 문제점이 발생하여 이렇게 질문 글을 작성해 봅니다.
다름이 아니라 checkpoint 작업이 문제인데요. checkpoint : time 작업은 아주 부드럽게 동작 하는데, checkpoint : xlog 작업이 진행될 때 순간적으로 1분에서 2분 정도 데이터베이스 서버의 CPU 가 100% 를 기록하면서
어떠한 응답도 하지 않는 문제가 발생하고 있습니다. 그 순간 모든 서비스가 정지되어 버리는데 아주 죽겠습니다 ㅠㅠ
질문의 요지는 다음과 같습니다.
1. checkpoint 동작 타입 중 xlog 는 어떤 동작을 수행하는 것인가요? 이 글을 읽어 보았는데 사실 xlog 에 대한 설명이 조금 이해가 되지 않았습니다.
2. 왜 checkpoint : xlog 를 수행할 때 CPU 에100% 로드가 걸리는 것인가요? 그 외의 경우에는 전혀 문제가 발생하지 않습니다.
참고로 현재 데이터베이스를 운용하는 서버 환경은 다음과 같습니다.
하드웨어 : AWS EC2 r3.4xlarge(CPU 16 core, 120GB RAM)
OS : Ubuntu 14.04, HugePage 설정
PostgreSQL : 9.4, 데디케이트로 운용됨
Pooler : Pgbouncer
|