database.sarang.net
UserID
Passwd
Database
DBMS
MySQL
PostgreSQL
Firebird
Oracle
Informix
Sybase
MS-SQL
DB2
Cache
CUBRID
LDAP
ALTIBASE
Tibero
DB 문서들
스터디
Community
공지사항
ㆍ자유게시판
구인|구직
DSN 갤러리
도움주신분들
Admin
운영게시판
최근게시물
자유게시판 자유게시판 4283 게시물 읽기
 
No. 4283
PHP 형태소 분석기 구현 관련
작성자
어렵군
작성일
2004-06-26 15:59ⓒ
2004-06-26 16:01ⓜ
조회수
4,802

안녕하세요 어렵군입니다

현재 PHP 형태소 분석기를 구현중에 있습니다

검색엔진을 뒤늦게 연구하다 형태소 분석기의 중요성을 실감하고서 도전하게 되었는데 만만치가 않네요

 

범용 형태소 분석기는 아니고 자연어 검색을 위한 정보검색용 색인어 추출기입니다

체언은 명확히 추출, 용언은 어절 자체를 추출, 체언 뒤의 조사는 명확히 분리, 영어와 숫자, 한자도 명확히 추출하는 식으로 색인어를 찾게 됩니다

지금까지는 한글과 나머지를 분리하는 전처리 과정이 끝났고, 조사와 어미 등 기능어 분리에서 조사 부분은 거의 끝났고 'ㄴ니다' 등 부분음절 어미 분리 작업 중에 있습니다

선어말어미와 접사, 추출된 색인어 후보 중 선택, 복합명사 분해, 색인어 가중치 부여 등의 작업이 남았네요

물론 다른 기능도 필요하겠지만 핵심적인 기능은 조사와 어미 등 기능어 분리이기 때문에 조금 수월할 것 같습니다

 

국내에 PHP 형태소 분석기가 없는 듯 하더군요

웹에서 사용되는 PHP와 Mysql 데이터들을 가공할 필요가 있다고 보여집니다

제가 프로그래밍에 워낙 문외한이라 한계를 느끼고 있지만, 1초에 1천 어절 정도를 처리할 수 있는 색인어 추출기를 희망하고 있습니다

실제 검색시에는 검색 단어 한 개 입력시 0.05초, 자연어 검색을 위해 검색 문장을 입력하더라도 단어가 10개 정도라면 0.1초 이내에 색인어를 추출할 수 있을 것입니다

 

앞으로 계속 구현해 나가겠지만 이 분야에 해박하신 선배님들의 조언을 듣고자 합니다

또한 함께 포함되었으면 하는 기능들이 있다면 그런 것도 듣고 싶구요

바쁘시겠지만 한 번 방문하시어 테스트 좀 부탁드리겠습니다

현재는 조사와 어말어미 분리가 가능할 뿐입니다

고맙습니당

http://lab.zagia.com

이 글에 대한 댓글이 총 1건 있습니다.

제가 제 글에 댓글을 답니다

다른 분들끼리만 서로 대화하니 제 글에는 댓글이 없어서요

후유...

 

지금 소스 수정중이라 미흡하긴 하지만 다시 테스트 부탁드려용 ^^

어렵군님이 2004-07-02 07:44에 작성한 댓글입니다. Edit
[Top]
No.
제목
작성자
작성일
조회
4286머리 스타일 바꾸다 [6]
이상호
2004-06-27
3652
4285어떻게 발킬머는 꼭 나올까요? [1]
prosper
2004-06-27
3062
4284저의 닮은 꼴이랍니다; [2]
이상호
2004-06-26
3356
4283PHP 형태소 분석기 구현 관련 [1]
어렵군
2004-06-26
4802
42821 [1]
이진희
2004-06-26
3413
4281닮은꼴 찾기 운동... ^^; [2]
정재익
2004-06-26
4904
4280접속자들끼리 서로 얘기할 수 있는 메신저 붙이면 안될려나... ^^; [2]
정재익
2004-06-26
3303
Valid XHTML 1.0!
All about the DATABASE... Copyleft 1999-2024 DSN, All rights reserved.
작업시간: 0.021초, 이곳 서비스는
	PostgreSQL v16.2로 자료를 관리합니다