데이터베이스를 사랑하는 사람들의 모임 데이터베이스 사랑넷

그 동안 거의 10년간 웹서비스를 개발했지만 수억 단위의 양을 넣어본 적은 없어서 DB책들에 있는 인덱스에 의한 random disk seek, disk IO, OS level cache 등등의 내용이 뭘 의미하는지, vacuum이 왜 치명적인지 이제야 알 것 같습니다.

ㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠ

이 글에 대한 댓글이 총 8건 있습니다.

안녕하세요,

크롤링된 데이터라면 웹페이지나 특정 도메인에 묶일 수 있는(블로그나 RSS) 컨텐츠라 생각됩니다. 내용 전부를 저장하는 것이 아니라 메타데이터만 저장한다고 하셨는데...

이런 류의 응용을 처리하기엔 shard개수가 작은 것 같습니다. 즉 특정 키로 분산을 하는데 2-3대의 데이터베이스가 위에서 말씀하신 로드를 감당하기엔 무리가 있어보입니다.

한 대가 감당할 수 있는 사이즈를 고려해보시고, 익숙한 DBMS로 튜닝을 진행하시는 것도 도움이 되리라 생각합니다.

부디 좋은 결과 있으시길 바랍니다.

김영우님이 2009-03-08 16:01에 작성한 댓글입니다. Edit Ｘ

크롤러가 신나게 쏟아붓지만 않는다면 대당 억단위 이상까지 할 수는 있을 것 같습니다.

문제는 엄청난 입력, 갱신과 조회가 한꺼번에 일어나는 것이 문제입니다..

지금 DBM계열의 DB 라이브러리로 데이터 저장소를 만들어서 돌려보는 중인데 DB역할을 최대한 단순화 시키니 그나마 버티는 것 같네요 =_=

신기배(소타)님이 2009-03-08 16:12에 작성한 댓글입니다.

일하고 있는 곳도 결국 DB 분산이 괴물같이 되어가고 있습니다.

가끔 이런 생각을 합니다.

맨날 정보 쓰레기를 욕하면서

내가 그 정보 쓰레기를 만들고 있는 것은 아닌가하는.

세상 모든게 다 제 역할이 있을터인데, 가끔 우리는

조장(助長)과 기우(杞憂)로 그 역할 이상을 꿈꾸는 것은 아닐까하는 생각을 해봅니다.

그리고는 주변에서 열심히 부추기죠.

'니가 그렇게 살아야 더 잘 살 수 있어!' 하면서 말이죠.

엉뚱한 댓글이었습니다.

그래서 열심히 해서 돈 많이 벌면 술 한 잔 사시오!

김상기(ioseph)님이 2009-03-09 11:04에 작성한 댓글입니다.

신기배님의 글을 다시 보다가 든 생각은......

그래도 PgSQL로 자유롭게(?) 테스트 및 프로젝트에 사용하고 계신 환경이 부럽습니다. ㅡ.ㅡ;

제가 있는 조직은 이미 사용하던 제품 아니면 배척/기피(?)하는 분위기인지라... 큰 업무에 적용해보지도 못 하고 있습니다. 제가 100% 책임이 있는 시스템에 대해서 2-3대의 PgSQL 인스턴스를 유지하고는 있지만......

용도에 맞게 제품을 선택하고 그 제품을 잘 활용할 수 있는 노하우와 분위기를 만드는게 성공적인 시스템 구축의 시작이 아닌가 생각해봅니다.

김영우님이 2009-03-09 11:45에 작성한 댓글입니다. Edit Ｘ

장비 들이고 할 여력은 안되서 ^^;

아마존 EC2를 이용하고 있습니다. 가상 머신이라서 아무때나 올렸다 내렸다 할 수 있고 테스트 목적이니까 트래픽이 발생 안해서 요금도 저렴하고요.

상위 스펙 서버는 실 서비스에도 하자가 없는것 같습니다 ㅎ

신기배(소타)님이 2009-03-09 12:27에 작성한 댓글입니다.

작년에 저도 비슷한 작업으로 고생했는데 pgsql로는 답 안나오더라구요.

그랴서 tokyocabinet 같은 key-value 스토어 이용해서 대응하고 있어요.

훈희님이 2009-03-12 13:31에 작성한 댓글입니다. Edit Ｘ

Tokyo Cabinet 좋더라구요. 처음엔 그 성능에 반해서 삽질하다가 ㅠ

메모리의 한계 때문에 결국 접었네요 ㅠ

신기배(소타)님이 2009-03-12 16:01에 작성한 댓글입니다.

저희도 32기가 쓰다가 넉넉하게 128기가로 업글했는디;;

15기가면.. 좀 빡시것네요;

SSD가 성능업, 가격다운 돼기만 기다릴뿐...

훈희님이 2009-03-12 20:53에 작성한 댓글입니다. Edit Ｘ

[Top]

No.	제목	작성자	작성일	조회
7639	새로운 에러에 대한 질문 좀 드립니다. 도와주세요. ㅠㅠ [3]	이진영	2009-03-09	8160
7638	Pgsql 에서 데이터는 어디에? [2]	souler	2009-03-08	7904
7637	8.3 버전에 대해서 [1]	souler	2009-03-08	7347
7636	최근 삽질 이야기 [8]	신기배	2009-03-08	10247
7635	"쓰기 성능"이 훌륭한 / 괜찮은 DBMS제품 추천부탁드립니다. [1]	궁금이	2009-03-08	7654
7634	bytea 를 blob 처럼 쓸 수 있을까요? [3]	송효진	2009-03-06	8674
7633	텍스트 가공에 대하여.. [2]	성제호	2009-03-06	7998

작업시간: 0.016초, 이곳 서비스는
PostgreSQL v16.4로 자료를 관리합니다