우연찬게 이상호 교수가 개발한 KTS라는 한글 형태소분석기를 발견하게 되었습니다. 홈페이지는
http://chem.skku.ac.kr/~kle/main/KTS
소스가 공개되었으며, GPL 라이센스를 따른다고 하네요.
형태소 분석 및 한국어 사전에 대한 시작점을 이것으로 했으면 합니다.
저 혼자 힘으로는 도저히 불가능할 것 같고, 뜻있는 분들의 참여를 바랍니다.
최종 결과물은 당연히 공개될 것이며, 어떠한 상업적인 목적으로도 사용될 수 없을 것입니다. 원 코드 자체가 GPL을 따르면서 덧붙여 상업적인 용도로 사용할 수 없다고 하니... (아깝기는 하지만)
개발 최종 목표는 KTS 놈을 tsearch2 에서 사용할 수 있도록 포팅하는 것 그것 뿐입니다.
그 나머지 모든 기능에 대해서는 tsearch2 개발진에게 맡겨도 좋을 듯싶습니다. 워낙 잘 만들어진 놈인지라.
다른 RDBMS도 함께 고려하면 좋겠지만, 일단 vector 인덱싱이 제가 아는 범위 안에서는 PostgreSQL 뿐이니, 이놈 기반으로 움직일 수 밖에 없을 것 같고, 한글 코드는 유니코드로 통일하는 것이 뒷날에 여러모로 혼돈이 없을 듯싶습니다.
필요하다면, 독립된 홈페이지 하나를 만들고, 개발진행 상황가 논의를 그곳에서 해도 좋을 듯싶습니다.
무엇부터 해야할지도 모르는 상황이지만, 분명 답이 나올 듯 하다는 예감이 드네요. |