데이터베이스를 사랑하는 사람들의 모임 데이터베이스 사랑넷

PostgresSQL 7.3 -> 8.2.3 업그레이드 시 encoding error

작성자

무적초보

작성일

2007-03-05 16:01

조회수

8,140

한글 문제 정리

PostgreSQL에서는 버전 7.2부터 해당 인코딩에 벗어난 멀티바이트 글자의 조합을
입력자체가 안되도록 정책을 정했습니다.

그 결과, euc-kr 인코딩을 사용하는 데이터베이스에서는 확장 완성형 글자나, 깨진 한글 같은 것을 사용할 수 없게 되었습니다.

결국, 한글 인코딩을 사용할 수 없게 되었습니다.
그 대안으로 utf-8 인코딩을 사용합니다.
현재로써는 그 방법 밖에 다른 방법이 없습니다.

1. 이미 데이터베이스 클러스터가 만들어진 상태라면,
- 이미 initdb 명령으로 관리할 데이터베이스들이 있는 상태를 말합니다 -
먼저 쉘에서 pg_controldata 명령으로 만들어진 데이터베이스 클러스터에서 사용하는 lc-collate 값이 무엇인지 살펴봐야합니다.

$ pg_controldata /home/postgres/data

이런식으로 사용됩니다. 이 명령어 인자는 initdb 때 -D 옵션에 지정한  데이터베이스 디렉토리입니다.
이 명령은 initdb 명령을 실행했던 시스템 사용자 권한으로 실행되어야합니다.

이 명령의 결과 맨 끝에,

LC_COLLATE:                           C
LC_CTYPE:                             ko_KR.UTF-8

또는

LC_COLLATE:                           C
LC_CTYPE:                             C

형태로 나와야합니다.

이렇게 나오지 않는다면, initdb 작업을 다시 해야합니다.

2. initdb 작업은 간단하게,

$ initdb --no-locale -D /home/postgres/data -E utf-8
또는
$ initdb --locale=ko_KR.UTF-8 --lc-collate=C -D /home/postgres/data -E utf-8

형태로 윗 값이 나오도록 데이터베이스 클러스트를 만듭니다.

3. 옛자료를 utf-8 문자셋으로 바꾸어서 사용하기

기존에 SQL_ASCII 또는 EUC_KR 문자셋으로 저장된 자료를 utf-8 데이터베이스에 자료를 넣으려면,
먼저 덤프받은 자료가 UTF8 문자셋으로 100% 변환되는지부터 테스트 해보셔야합니다.

왜냐하면, 7.2 이하 버전에서는 '한글이 아니더라도 한글로 처리하는 것을 당연하다'고 처리했기 때문입니다.

그렇지 않고 그냥 작업을 하게 되면,

invalid byte sequence for encoding 오류를 냅니다.

가장 쉽게 처리 하는 방법은

$ iconv -c -f cp949 -t utf8 dumpdata.sql > dumpdata_utf8.sql

이런 형태로 utf8로 변환되지 못하는 모든 글자를 무시하고, utf8 문자셋으로 바꾸는 것입니다.

그렇지 않고, 모든 잘못된 글자를 찾아서 바르게 고쳐서 변환하면 되겠죠.
iconv 에서 -c 옵션을 빼면 요즘 iconv 놈은 어디서 그런 문제가 있는지 친절하게 알려주네요.
iconv 버전이 낮아서 그렇지 못하다면, 알아서 잘 이 문제를 풀어가야합니다.

4. 다음은 일반적인 데이터베이스 복원 작업을 진행하면 됩니다.