데이터베이스를 사랑하는 사람들의 모임 데이터베이스 사랑넷

like 로 검색 시 효율적인 방법은?

작성자

김대청(dcmru)

작성일

2009-06-16 13:56ⓒ
2009-06-16 14:15ⓜ

조회수

7,098

data like '%검색어%'

검색 방법은 당연히 인덱스를 사용하지 않습니다.

이 문제 때문에 각종 데이터베이스는 full text search 관련 기능을 제공합니다.

PostgreSQL에서는 tsearch 인가? 그 놈이 그 구실을 합니다.

자세한 것은 full text search 관련을 검색해 보시면 이곳에서 많이 논의하고 있습니다.

또 다른 검색어 하나가 tsearch2 입니다.

김상기(ioseph)님이 2009-06-16 16:12에 작성한 댓글입니다.

http://database.sarang.net/?inc=read&aid=5125&criteria=pgsql&subcrit=&id=&limit=20&keyword=tsearch&page=2

이전 글을 보고, 적용해보았습니다.

vector 컬럼을 추가하고, 인덱스도 생성을 해보았는데,
결과적으로는 like '%OO%' 보다 느립니다.
data는 일반 영문 명령어라고 생각하시면 됩니다.
vector 컬럼을 select 해보면, 단어별로 잘 들어가 있습니다.
who 같은 명령어는 무시되었습니다. stop 설정관련 해서 그런것 같습니다.
gist 인덱스로 인해 실 데이타 크기도 두배정도 늘어났습니다.
원인이 무엇일까요? 데이터가 더많을 때 달라질까요?
그리고 y로 끝나는 단어는 i로 변경이 되어서 vector에 저장이 됩니다.
who가 생략되는 현상 등 설정을 더 해봐야겠습니다.

securedb=> explain analyze select sid from tableb where vector @@ to_tsquery('id');
                                                          QUERY PLAN
------------------------------------------------------------------------------------------------------------------------------
Bitmap Heap Scan on tableb (cost=145.04..16121.82 rows=5132 width=82) (actual time=209.096..2364.629 rows=209794 loops=1)
   Filter: (vector @@ to_tsquery('id'::text))
   -> Bitmap Index Scan on slidx17 (cost=0.00..143.75 rows=5132 width=0) (actual time=183.353..183.353 rows=209794 loops=1)
         Index Cond: (vector @@ to_tsquery('id'::text))
Total runtime: 2569.485 ms
(5 rows)

securedb=> explain analyze select sid from tableb where data like '%id%';
QUERY PLAN
----------------------------------------------------------------------------------------------------------------------
Seq Scan on tableb (cost=0.00..135502.80 rows=1026477 width=82) (actual time=28.378..2087.927 rows=209794 loops=1)
Filter: ((data)::text ~~ '%id%'::text)
Total runtime: 2237.611 ms
(3 rows)

securedb=> explain analyze select sid from tableb where data like 'id%';
                                                           QUERY PLAN
--------------------------------------------------------------------------------------------------------------------------------
Bitmap Heap Scan on tableb (cost=575.90..51871.93 rows=25662 width=82) (actual time=347.847..1826.707 rows=209794 loops=1)
   Filter: ((data)::text ~~ 'id%'::text)
   -> Bitmap Index Scan on slidx16m (cost=0.00..569.49 rows=25662 width=0) (actual time=250.318..250.318 rows=419588 loops=1)
         Index Cond: (((data)::text >= 'id'::text) AND ((data)::text < 'ie'::text))
Total runtime: 1977.086 ms
(5 rows)

a테이블과 조인을 하여 distinct를 덧붙여 쿼리하였을 때는 반대의 현상이 나타나는군요. tsearch2를 적용하여 쿼리하였을때 4.3초 적용안하였을 때 6.3초 정도 나옵니다. 사이즈는 배로 늘었는데, 괄목할만한 향상이 보이지는 않습니다...

김대청(dcmru)님이 2009-06-17 18:32에 작성한 댓글입니다.
이 댓글은 2009-06-17 19:01에 마지막으로 수정되었습니다.

No.

제목

작성자

작성일

조회

7956

저기.. 작업시간.. [6]

2009-06-18

6445

7953

PostgreSQL 8.4 RC1 떴네요; [5]