database.sarang.net
UserID
Passwd
Database
DBMS
MySQL
ㆍPostgreSQL
Firebird
Oracle
Informix
Sybase
MS-SQL
DB2
Cache
CUBRID
LDAP
ALTIBASE
Tibero
DB 문서들
스터디
Community
공지사항
자유게시판
구인|구직
DSN 갤러리
도움주신분들
Admin
운영게시판
최근게시물
PostgreSQL Columns 5139 게시물 읽기
 News | Q&A | Columns | Tutorials | Devel | Files | Links
No. 5139
tsearch2 한국어 파서 사전 개발안
작성자
김상기(ioseph)
작성일
2004-01-04 00:24ⓒ
2004-01-04 12:20ⓜ
조회수
14,813

우연찬게 이상호 교수가 개발한 KTS라는 한글 형태소분석기를 발견하게 되었습니다. 홈페이지는

http://chem.skku.ac.kr/~kle/main/KTS

 

소스가 공개되었으며, GPL 라이센스를 따른다고 하네요.

 

형태소 분석 및 한국어 사전에 대한 시작점을 이것으로 했으면 합니다.

저 혼자 힘으로는 도저히 불가능할 것 같고, 뜻있는 분들의 참여를 바랍니다.

최종 결과물은 당연히 공개될 것이며, 어떠한 상업적인 목적으로도 사용될 수 없을 것입니다. 원 코드 자체가 GPL을 따르면서 덧붙여 상업적인 용도로 사용할 수 없다고 하니... (아깝기는 하지만)

 

개발 최종 목표는 KTS 놈을 tsearch2 에서 사용할 수 있도록 포팅하는 것 그것 뿐입니다.

그 나머지 모든 기능에 대해서는 tsearch2 개발진에게 맡겨도 좋을 듯싶습니다. 워낙 잘 만들어진 놈인지라.

 

다른 RDBMS도 함께 고려하면 좋겠지만, 일단 vector 인덱싱이 제가 아는 범위 안에서는 PostgreSQL 뿐이니, 이놈 기반으로 움직일 수 밖에 없을 것 같고, 한글 코드는 유니코드로 통일하는 것이 뒷날에 여러모로 혼돈이 없을 듯싶습니다.

 

필요하다면, 독립된 홈페이지 하나를 만들고, 개발진행 상황가 논의를 그곳에서 해도 좋을 듯싶습니다.

 

무엇부터 해야할지도 모르는 상황이지만, 분명 답이 나올 듯 하다는 예감이 드네요.

이 글에 대한 댓글이 총 8건 있습니다.

흠..

 

실력이 부족하고.. 한참 모자르지만..

 

할수 있는 것이라면 어떤 것이든 도와드리겠습니다. 군대 가기 전까지야.. 못할것 없음.

 

전 중요한건 안되더라도 작은건 모두 참여하겠습니다.

이상호(search5)님이 2004-01-04 03:16에 작성한 댓글입니다.

저두 참여하겠습니다 ㅎㅎ

아 근데 상업적으로 사용못한다는게 -.-;

pgsql을 돈받고 못판다는건지 아니면 KTS가 적용된 tsearch2를 사용하는 pgsql을 DBMS로 쓰는 사이트에서 돈을 한푼도 못번다는 것인지요? -.-;

ㅡㅡㅋ 여튼 저도 할수 있는건 하겠습니다.. 어떻게 하면 될까요? ^^;

신기배(nonun)님이 2004-01-04 11:14에 작성한 댓글입니다.

한 3년 PostgreSQL의 Backend system과 관련해서 몇가지 작업을 해 보면서 점점 그 유용성에 매력을 느끼는 사람입니다. 특히 관심을 가지는 분야는 GiST 및 bespoke database systems입니다.. 많은 분들이PostgreSQL을  MySQL과 같은 수준에서 단순 업무에 이용하는 것에 관심이 많은데, GiST에 관심을 가지고, PostgreSQL에 대해서 비슷한 구상을 하고 있는 분이 계셔서 의외이면서도 반갑습니다.

 

이제 조금 시간적인 여유가 생겨서, 평소 생각하던 것들을 하나씩 해보고 싶은데, 좋은 구상이 있어서 서로 도움이 될 수 있다면 좋겠네요. 구상하는 일에 어떤 진전이 있는지 궁금합니다.

 

참고로, 님께서 쓰신 글중에 R-tree기법을 적용한 GiST를 multi-dimensional indexing에 이용해 봤더니 속도가 무지 느리다는 글을 봤습니다. 예상되는 결과라고 생각됩니다. R-tree가 Oracle이나 기타 상용 DB에서 많이 지원되는 큰 이유 중에 하나는 개발과 안정화가 쉬우면서도 geometric approximation(!!)에 효과적이라는 이유 때문일 것 같습니다. 하지만 조금만 복잡한 응용에서는 그다지 효과적이지 못하죠.. .PostgreSQL을 사용하는 이상, 좀더 복잡하고 영리한 indexing 기법을 한번 시도해 보는 것이 재미있지 않을까 싶습니다.

정승현(ashjeong)님이 2004-01-11 09:05에 작성한 댓글입니다.

기존의 GPL을 따르면서 상용에는 사용 못한다는 이상한(?) 라이센스에서 완벽한(?) GPL 라이센스로 변화하였습니다.

아래의 링크를 참조해 보시면 됩니다

 

그럼...

 

http://chem.skku.ac.kr/~kle/main/KTS

이민철(linux199)님이 2004-01-28 00:00에 작성한 댓글입니다.

드디어 시작하시는 군요.

저도 개인적으로 시작하려고 준비하고 있었는데... 시간이 안 나 지지부진 합니다.

제 생각에는 좀더 폭넓게 사용할 수 있도록 체계적인 api 형태로 먼저 개발을 하고 이를 tsearch에 적용하는게 어떨까 합니다.

그리고 이 형태소 분석기에 사용할 수 있는 사전 프로젝트도 별도로 진행하는 것도 좋을 것 구요.

관심 많이 가지고 최대한 참여하겠습니다.

사실 저희 회사 차원에서 진행 하려고 생각 중이였는데... 좀 더 구체화 되도록 힘써보겠습니다.

박성철님이 2004-02-20 00:00에 작성한 댓글입니다. Edit

http://kldp.net/projects/hangul/

 

범용으로 시작할 생각이라면 위의 프로젝트와 연계하거나 함께 작업하는 걸 고려해보는 것도 나쁘지 않을 것 같습니다. 아무래도 프로젝트를 진행중인 분들이 이 분야에서 활발하게 활동할 뿐 아니라 실력도 대단하신 분으로 알고 있습니다. 참고하세요 :)

최연석님이 2004-02-26 02:25에 작성한 댓글입니다. Edit

KTS를 tsearch2에 붙이는 문제.. 어떤 진전이 있었나요?

제가 약간(아주 약간) 생각해 봤는데... 이 형태소 분석기... 검색엔진에 잘 맞을지 의문입니다. KTS는 말 그대로 구문 분석기로써 맞춤범 검사나 자연어 처리등에는 맞을지 몰라도 검색엔진에는 좀 문제가 있을 것 같습니다. 검색엔진은 형태소를 추출하는 것 보다는 키워드는 정확하가게 뽑아내는 것이 더 중요한데 KTS는 개발 방향이 좀 다른 것 같습니다.

KTS page의 예에서

 

$ ./ktsdemo < test.txt

= 즐겁고 재미있는 우리 생활에 대하여 이야기해 봅시다.

o 즐겁/pa+고/ecq

o 재미있/pa+는/exm

o 우리/npp

o 생활/nc+에/jca

o 대하/pv+어/ecx

o 이야기/nca+하/xpv+어/ecx

o 보/px+ㅂ시다/ef+./s.

 

이렇개 되 있는데.

두번째 분석 결과를 보면 '재미있'과 '는'으로 분리를 했는데요. 검색엔진을 위해서라면 '재미', '있', '는' 으로 잘라서 '있'과 '는'은 불용어 처리 해야 하는 것 아닌지 생각이 되네요.

 

그리고 실제 검색기를 적용하다보면 사전이 전문적인 용어를 다 포함하기 힘들기 때문에 한 복합 단어를 가능하 많은 경우로 나눠줘야 하는데 kts에 이런 기능이 있을까요? 예를 들어 재난및안전관리기본법시행령및시행규칙제정안 이라는 법률 이름의 경우 법률은 띄어쓰기를 하지 않는 것이 관례이기 때문에 이렇게 여러단어가 붙어있게 됩니다.

이런 상황에서 '시행'이란 단어도 있지만 '시행령'이란 단어로도 나눌수 있어야 합니다. 마찮가지고 '기본'이라는 단어를 추출할 수도 있으면서 '기본법'이란 단어를 추출할 수도 있죠.

문제는 '기본' '기본법' 모두 사전에 있을 확율이 높기 때문에 가능할지 몰라도 사전에 아애 없는 단어가 실무에서는 더 많을 수 있다는거죠. 그러니 어림 잡아서 가능한 모든 단어를 다 잘라내는 작업이 필요합니다.

한 검색엔진 회사에서는 아에 가능한 모든 조합(?)으로 단어를 자릅니다. 예를 들어 '한글사랑'이라는 단어가 있을 경우,

 

한글

한글사

글사

글사랑

사랑

 

이렇게요. 이런방식이 무슨 구문분석이냐고 할지 모르지만 중요한 것은 문서를 검출해내는 것이지 얼마나 학문적으로 완벽한 구문 분석을 하느냐는 것이니 일리가 있어보입니다.

 

제가 예전에 심마니를 좋아하지 않았었는데 심마니가 너무 구문분석의 정확성에 치중한 나머지 검색 결과가 너무 많이 나오거나 안나와서 검색에 실패하는 경우가 많았기 때문입니다.

 

저는 오히려 한글 구문분석을 전혀 하지 않는 google아나 altavista가 맘에 들더군요.

 

어떻게 생각하십니까?

박성철(gyumee)님이 2004-04-12 15:27에 작성한 댓글입니다.

현재 형태소 분석을 이용한 색인어 추출기 구현중입니다

언어는 좀 무리이겠지만 PHP를 이용했습니다

데모는

http://lab.zagia.com

 

늦은 감이 있지만 형태소 분석기 구현에 도움을 드렸으면 하는군요

tsearch2라는 것이 도통 뭔지 모르겠지만요

어렵군님이 2004-07-29 17:21에 작성한 댓글입니다. Edit
[Top]
No.
제목
작성자
작성일
조회
5953비정상적인 시스템 종료에 따른 postmaster의 반응 (7.1 이상에서)
김상기
2005-03-08
13645
5472PostgreSQL8.0.0 beta1 리눅스 VS 윈도우 [7]
신기배
2004-08-14
14748
5187PostgreSQL vs MySQL [6]
정재익
2004-02-04
49064
5139tsearch2 한국어 파서 사전 개발안 [8]
김상기
2004-01-04
14813
4939DSN 개발 뒷 이야기 [4]
김상기
2003-09-13
11006
4860PostgreSQL을 얼마나 오래 사용하고 있나요?
김상기
2003-08-24
10731
4586MySQL에서 PostgreSQL로 옮길 때 알아야 할 것들. [4]
김상기
2003-02-18
14659
Valid XHTML 1.0!
All about the DATABASE... Copyleft 1999-2020 DSN, All rights reserved.
작업시간: 0.055초, 이곳 서비스는
	PostgreSQL v13.0으로 자료를 관리합니다