데이터베이스를 사랑하는 사람들의 모임 데이터베이스 사랑넷

euc-kr 문자셋으로 되어있는 자료를 어떻게 unicode 자료로 옮기는 것인가? 이놈이 문제의 핵심인데요.

개략적으로는 이렇습니다. (쉘 작업입니다)

shell$ pg_dump old_db > old_db

shell$ iconv -f cp949 -t utf8 old_db > old_db.utf8

shell$ createdb -E unicode newdb

shell$ psql newdb < old_db.utf8

----------------

이렇게 하면 비교적 간편하게 DB의 인코딩을 바꿀 수 있지요.

문제는!

SQL_ASCII 인코딩을 사용했던 DB나 euc-kr에서 wchar.c 파일 해킹해서 사용했던 DB일 경우에, uhc(cp949) <-> unicode로 변환이 되지 않는 자료가 있을 수 있습니다. 이놈들을 먼저 찾아서 적당히 수정해 주어야한다는 것이지요.

이곳 DSN 작업때는 그런 문제가 4건 밖에 발생하지 않았는데, 제가 일하고 있는 곳에서는 오래된 자료가 많아서인지, 거의 수백건이 넘었습니다. 이것을 일일히 찾아서 고쳐주어야한다는 것이 번거로운 일이지요. 그냥 무시할 요량이라면, perl이나, python으로 간단하게 스크립트를 하나 만들어서 변환되지 못하는 문자가 나타나면 무조건 '?' 문자로 바꾼다는 식의 처리하시면 될 듯싶습니다.

주의 하셔야할 것은 euc-kr 과 unicode와의 문제가 아니라, uhc(cp949)와 unicode의 변환문제입니다. 유념해 두시길.

참고로 DSN 작업을 할때 사용했던 제가 쓴 python 코드를 아래에 복사해 두겠습니다.

#!/usr/bin/python2
import sys;
reload(sys)
sys.setdefaultencoding('cp949')
fh = open(sys.argv[1]);
all = fh.readlines();
fh.close();
i = 1;
for s in all:
        try:
                s = unicode(s);
                s = s.encode('cp949');
        except UnicodeError, x:
                print "%d Line: %s" % (i, x);
        i += 1;

사용자의 오타로 인한 글자가 깨어진 경우를 감안해서 일일히 그 문제의 글자가 들어있는 해당 줄을 보여주도록 하는 스크립트입니다. 그래서 편집기를 열어서 그 줄로 가서 바르게 고치든지 포기를 하든지는 사용자가 선택할 수 있겠끔.

이 작업은 시스템이 여러개 있어야할 이유도 없고, 전문지식이 필요한 것도 아니거든요.

김상기(ioseph)님이 2004-01-04 23:51에 작성한 댓글입니다.

전 좀 다른 방법으로 해결했습니다.

sql_ascii 방식으로 백업 받고,(물론 백업받을때 -d 옵션을 넣었습니다)

psql로 접속해서 set client_encoding = 'uhc' 하고

\i 백업된 파일

이렇게 하니 잘 들어가더군요.

물론, 그 이전에 db는 유니코드로 생성되어 있어야 합니다.

이상호(search5)님이 2004-01-05 01:29에 작성한 댓글입니다.