안녕하세요 어렵군입니다
현재 PHP 형태소 분석기를 구현중에 있습니다
검색엔진을 뒤늦게 연구하다 형태소 분석기의 중요성을 실감하고서 도전하게 되었는데 만만치가 않네요
범용 형태소 분석기는 아니고 자연어 검색을 위한 정보검색용 색인어 추출기입니다
체언은 명확히 추출, 용언은 어절 자체를 추출, 체언 뒤의 조사는 명확히 분리, 영어와 숫자, 한자도 명확히 추출하는 식으로 색인어를 찾게 됩니다
지금까지는 한글과 나머지를 분리하는 전처리 과정이 끝났고, 조사와 어미 등 기능어 분리에서 조사 부분은 거의 끝났고 'ㄴ니다' 등 부분음절 어미 분리 작업 중에 있습니다
선어말어미와 접사, 추출된 색인어 후보 중 선택, 복합명사 분해, 색인어 가중치 부여 등의 작업이 남았네요
물론 다른 기능도 필요하겠지만 핵심적인 기능은 조사와 어미 등 기능어 분리이기 때문에 조금 수월할 것 같습니다
국내에 PHP 형태소 분석기가 없는 듯 하더군요
웹에서 사용되는 PHP와 Mysql 데이터들을 가공할 필요가 있다고 보여집니다
제가 프로그래밍에 워낙 문외한이라 한계를 느끼고 있지만, 1초에 1천 어절 정도를 처리할 수 있는 색인어 추출기를 희망하고 있습니다
실제 검색시에는 검색 단어 한 개 입력시 0.05초, 자연어 검색을 위해 검색 문장을 입력하더라도 단어가 10개 정도라면 0.1초 이내에 색인어를 추출할 수 있을 것입니다
앞으로 계속 구현해 나가겠지만 이 분야에 해박하신 선배님들의 조언을 듣고자 합니다
또한 함께 포함되었으면 하는 기능들이 있다면 그런 것도 듣고 싶구요
바쁘시겠지만 한 번 방문하시어 테스트 좀 부탁드리겠습니다
현재는 조사와 어말어미 분리가 가능할 뿐입니다
고맙습니당
http://lab.zagia.com |