데이터베이스를 사랑하는 사람들의 모임 데이터베이스 사랑넷

텍스트 가공에 대하여..

작성자

성제호(s_jeho)

작성일

2009-03-06 14:55

조회수

7,741

두개의 테이블을 만드시고

각각 포맷에 대해 분석해서 각각의 테이블에 입력하는 간단한 스크립트를 짜신 후?

두 테이블을 조인하거나 view를 만들어서 조회하시는 것이 어떨런지요?

SQL로 두 데이터를 필드로 받아서 분석해서 결과를 주는 것은 왠지 삽질이 될 것 같네요 ㅎㄷㄷ

신기배(소타)님이 2009-03-06 17:12에 작성한 댓글입니다.

로그 파일이 있고 이것을 데이터베이스로 저장하려는 작업의 바탕에는 일반적으로, 소스파일 - ETL - DW(DB) 같은 단계를 거치게 되어있습니다. 물론 이게 리포팅이나 분석업무같은 Data Warehousing업무에 특화된 프로세스 이지만,

말씀하신 로그파싱 & 로딩의 절차는 ETL 레이어에서 수도 없이 하는 작업이 됩니다. 그래서 ETL 제품에는 원하시는 기능이 대부분 포함되어 있지요. 물론 직접 코딩하셔도 되구요. 요점은 뭐냐하면, 일반적으로 소스데이터에서 특정 '가공'작업을 거쳐 데이터베이스에는 정제되고 구조화된 형식으로 저장하려면 중간에 그런 추출/정체/변환 작업을 설계/구현하시는게 좋다는 것입니다. 물론 중간결과물을 데이터베이스에 넣고 데이터베이스에서 가공 및 적재하는 경우도 요즘은 많습니다.(ELT)

1. 간단한 추출/정체 후, 로딩 작업이라면 직접 코드로 작성하시는 것을 권하고 싶습니다.

2. 절차가 복잡하고, 유지보수가 필요하거나 데이터 사이즈가 크고... 절차를 구조화하고 싶을 때는, ETL 제품을 사용하시는게 도움이 될겁니다.

- 상용제품은 인포메티카 파워센터, 데이터 스테이지, OWB, ODI ... 등이 있습니다. 비쌉니다 ㅡ.ㅡ;

3. 상용 ETL 엔진을 대체하기 위한 오픈소스 제품도 아주 훌륭합니다. Pentaho Data Integration(KETTLE), Talend open studio 등의 제품이 많이 쓰입니다. (제가 구현한 ETL 작업중에는 KETTLE로 하루에 10억건 이상의 로그도 일반 x86 엔트리 서버로 처리하는 경우도 있습니다.)

김영우님이 2009-03-09 11:57에 작성한 댓글입니다. Edit Ｘ

No.

제목

작성자

작성일

조회

7636

최근 삽질 이야기 [8]

신기배

2009-03-08

10010

7635