database.sarang.net
UserID
Passwd
Database
DBMS
MySQL
ㆍPostgreSQL
Firebird
Oracle
Informix
Sybase
MS-SQL
DB2
Cache
CUBRID
LDAP
ALTIBASE
Tibero
DB 문서들
스터디
Community
공지사항
자유게시판
구인|구직
DSN 갤러리
도움주신분들
Admin
운영게시판
최근게시물
PostgreSQL Q&A 7654 게시물 읽기
No. 7654
김영우님께 질문드립니다..ㅠㅠ 가공에 따른 코드 작성은 뭘로하는게 좋을까요?
작성자
성제호(s_jeho)
작성일
2009-03-18 14:58
조회수
8,398

안녕하세요^^;
제 글에 두번씩이나 답글주셔서(같은 질문이라 짜증나셨을텐데..ㅠㅠ) 이렇게 질문드립니다

말씀하신 ETL 에 대한것을 찾다가 RapidMiner 란 오픈소스 데이터마이닝 프로그램으로 삽질하고있습니다만
그렇게 자료가 능동적으로 확확 바뀌는것은 아니고 추후 변동의 여지도 없는것이라
배보다 배꼽이 더 커질락말락하는것같아서, 좀더 쉽게쉽게 가보려고 합니다..^^;

하려는 작업은 길고 긴 CDR에서 특정 열만 추출해서 다시 CSV 형태로 저장하고,
그걸 DB에 적재하려고합니다.

스크립트라는걸로 가능할것같은데, 문자열을 가공하려면 어디서부터 파봐야 할까요?
배쉬쉘에서도 할수 있다하고(아참 리눅스입니다..), 문자열하면 역시 펄이란 소리도 있고, PHP도 된다고하고..
간단한 문자열 추출작업을 하려는데 어디서부터 어떻게, 혹은 이런 분야를 지칭하는 단어가 있는지(있다면 찾아서 열심히 파보겠습니다)
조언을 부탁드립니다..ㅠㅠ

이 글에 대한 댓글이 총 3건 있습니다.

RapidMiner란 툴은 소스데이터 변형을 위한 툴은 아니고 '데이터마이닝'툴입니다.


말씀하신 경우라면 ETL 엔진을 도입하기엔 배보다 배꼽이 더 큰 경우인 것 같은데요.


가장 잘 쓰시는 언어로 간단히 필요한 필드만 짤라서 로딩 대상을 만드는 어프리케이션을 작성하시면 됩니다.


다만, 이런 스타일의 데이터 적재를 빈번하게 하게 된다면 조금의 학습 비용을 들여서 ETL 엔진을 도입하는 것도 아주 큰 생산성 향상을 가져옵니다.


오픈소스로 추천할만한 ETL 툴은 PDI(http://kettle.pentaho.com)입니다. 쉽게(?) 익힐 수 있는것은 아니지만 어느정도 익숙해지면 아주 유용합니다. 한글화도 되어있어서 다른 툴보다는 쉽게 배우실 수 있을겁니다.


실제 제가 하는 업무에도 적용하고 있구요. 일 수억건의 텍스트로그를 처리하고있습니다.

김영우님이 2009-03-18 23:49에 작성한 댓글입니다.
이 댓글은 2009-03-18 23:51에 마지막으로 수정되었습니다. Edit

어플리케이션을 작성하신다면, 가장 잘 하시는 언어로 개발하면 제일 좋구요.


처음 시작하는 것이라면 리눅스에 쉽게 쓸 수 있는 perl이나 python을 써보세요.

개인적으로는 python이 쉽게 배울 수 있어서 좋을 것 같습니다.

김영우님이 2009-03-19 00:00에 작성한 댓글입니다. Edit

친절한 답변에 감사드립니다..^^

덕분에 어디서부터 어떻게 줄기를 잡아야 할지 대충 알게되었습니다
감사합니다`^^

성제호(s_jeho)님이 2009-03-19 09:42에 작성한 댓글입니다.
[Top]
No.
제목
작성자
작성일
조회
7657비주얼베이직 클라이언트 프로그램 [1]
souler
2009-03-19
7225
7656PostgreSQL을 사용하고 있는 회사는? [1]
김연수
2009-03-19
7074
7655pgpool 새로운DB추가시 문의 드립니다
김태규
2009-03-19
6631
7654김영우님께 질문드립니다..ㅠㅠ 가공에 따른 코드 작성은 뭘로하는게 좋을까요? [3]
성제호
2009-03-18
8398
7653CSV 에서 COPY로 자료입력시, 특정 열의 자료만 입력하게끔 하고싶습니다 [5]
성제호
2009-03-18
7291
7652오랜 만에 질문 드립니다. [1]
이진영
2009-03-17
6401
7651신기배님 답변감사합니다. 추가로 문의 좀 드릴께요.. [4]
김태규
2009-03-17
7304
Valid XHTML 1.0!
All about the DATABASE... Copyleft 1999-2024 DSN, All rights reserved.
작업시간: 0.017초, 이곳 서비스는
	PostgreSQL v16.2로 자료를 관리합니다