database.sarang.net
UserID
Passwd
Database
ㆍDBMS
MySQL
PostgreSQL
Firebird
Oracle
Informix
Sybase
MS-SQL
DB2
Cache
CUBRID
LDAP
ALTIBASE
Tibero
DB 문서들
스터디
Community
공지사항
자유게시판
구인|구직
DSN 갤러리
도움주신분들
Admin
운영게시판
최근게시물
DBMS Columns 154 게시물 읽기
 News | Q&A | Columns | Tutorials | Devel | Files | Links
No. 154
데이터 마이닝
작성자
정재익(advance)
작성일
2001-12-08 12:38
조회수
5,210

무엇을 캐야 하는지 알고 곡괭이를 휘둘러야 한다

 

어떤 고객 집단이 상품홍보용 우편에 가장 큰 반응을 보일까? 그리고 이유는 무엇일까? 데이터마이닝 솔루션을 도입한 기업이라면 이에 대한 해답을 더 이상 마케팅부서 직원들의 직관에 의존하지 않는다. 데이터마이닝 솔루션을 통해 논리적 근거와 수치를 가지고 이에 대한 해답을 얻을 수 있기 때문이다. 상대적으로 적은 투자로 높은 ROI를 약속하는 데이터마이닝이 CIO들에게는 상당히 매력적으로 다가온다. 그러나 데이터마이닝이 아직 낮선 CIO들에겐 무언가를 집어넣기만 하면 굉장한 것을 가져다 주는 마술상자로 데이터마이닝이 종종 오해받고 있는 것 또한 사실이다. 적어도 데이터마이닝 솔루션 도입을 고려중인 CIO라면 이에 대한 잘못된 인식을 정확히 가려내고 그것의 진정한 가치를 꿰뚫어 볼 수 있는 혜안이 그 어느 때보다 중요하게 요구되고 있다.

 

박호경 hk_park@cio.seoul.kr

 

[영] Data Mining

[한] 데이타마이닝

 

개요 : 많은 데이터 가운데 숨겨져 있는 유용한 상관관계를 발견하는 것.

<데이터 웨어하우스와 데이터 마트가 사용자가 원하는 테이블들을 미리 만들어 놓고 이를 꺼내 볼 수 있도록 하는 개념인 반면, 각 데이터의 상관관계를 인공 지능 기법을 통해 자동적으로 밝혀 주는 것. 예를 들면, 비를 좋아하는 사람에 대한 데이터가 있고 색깔에 대한 선호도와 관계된 데이터가 있다면 이 둘의 관계를 밝혀 내는 기능을 수행한다. 즉 정확히 수치화하기 힘든 데이터 간의 연관을 찾아내는 역할을 한다.>

 

데이터베이스로부터 과거에는 알지 못했지만 데이터 속에서 유도된 새로운 데이터 모델을 발견하여 미래에 실행 가능한 정보를 추출해 내고 의사 결정에 이용하는 과정을 말한다. 즉 데이터에 숨겨진 패턴과 관계를 찾아내어 광맥을 찾아내듯이 정보를 발견해 내는 것이다. 여기에서 정보 발견이란 데이터에 고급 통계 분석과 모델링 기법을 적용하여 유용한 패턴과 관계를 찾아내는 과정이다. 데이터베이스 마케팅의 핵심 기술이라고 할 수 있다.

예를 들어, 한 백화점에서 판매 데이터베이스의 데이터를 분석하여 금요일 오전에는 어떤 상품들이 잘 팔리는가, 그리고 팔리는 상품들간에는 어떤 상관관계가 있는가 등을 발견하고 이를 마케팅에 반영하는 것이다. 따라서 데이터마이닝의 필수 요소는 신뢰도가 높은 충분한 자료이다. 이것은 신뢰도 높은 충분한 자료가 정확한 예견을 가능하게 하기 때문이다. 그러나 너무 많은 자료는 오히려 데이터마이닝의 예견 능력을 떨어뜨릴 수 있으므로 최적의 결과를 산출할 수 있는 의미있는 자료의 확보가 필요하다. <본문 출처 : 두산세계대백과 EnCyber>

 

--------------------------------------------------------------------------------

 

기사 개요

 

이 기사를 읽지 않으면 독자들은 다음 사항을 놓칠 수 있다.

 

▶ 데이터마이닝 도입시 빠지기 쉬운 함정

▶ 데이터마이너와 현업전문가의 중요성

▶ 데이터마이닝 속에서 데이터웨어하우스가 갖는 의미

 

 

BC카드

 

비지니스 패턴 파악

 

신용카드회사의 골치거리중 하나가 남의 카드를 훔치거나 주워서 몰래 사용하는 경우다.

 

신용카드를 분실 또는 도난 당했을 경우 신고일로부터 15일사이(현금서비스는 신고시점이후)에 발생한 부정사용금액에 대해서는 신용카드사가 보상해야 하기 때문이다.

 

BC카드사도 이러한 고민으로부터 자유롭지 않았다. BC카드사는 이러한 일이 발생하는 것을 미리 방지하기 위해 데이터마이닝 솔루션을 도입하였다.

 

분실카드 사용방지를 위한 데이터마이닝 솔루션은 먼저 과거 5년간 카드를 부정하게 사용한 바 있는 고객의 데이터를 가지고 그 고객의 신용카드 이용시간, 금액, 장소, 신용카드가 자주 사용되는 업종 등 개인의 거래정보와 회원특성을 분석하였다.

 

이러한 패턴 분석을 바탕으로 데이터마이닝 솔루션은 BC카드 소지자가 카드를 사용할 때마다 위험도 점수를 자동으로 산정한다. 예를 들어 신용카드를 사용하는 패턴이 평소 사용하는 특성에서 벗어나게 되면 위험도점수가 높아지며 이 점수가 일정 수준에 이르면 자동으로 거래가 거절된다.

 

만일 이때 신용카드 가맹점에서 카드를 긁게 되면 BC카드사로 연락을 요청하는 메세지가 승인 단말기에 해당 전화번호와 함께 자동으로 나타난다. 이렇게 되면 카드사용자는 비씨카드사 직원과의 전화통화로 본인여부를 확인하는 절차를 밟아야 하고 아무 이상이 없다고 판단되면 정상적으로 카드거래가 이뤄지게 되는 것이다. BC카드사의 분실/도난 카드에 대한 조기검색시스템은 SAS사의 데이터마이닝 기법 중의 하나인 인공신경망(Neural Network Application) 방법을 이용하여 개발됐다.

 

BC카드사는 한국SAS사와 4개월간의 공동개발을 통해 시스템을 개발하고 98년 4월부터 본격적으로 사용하고 있다.

 

BC카드사는 분실/도난 카드에 대한 조기검색시스템을 통하여 카드의 부정사용으로 인한 손실액을 적지 않게 줄일 수 있었다. 내부적으로 그 효과에 상당히 만족해 하고 있다고 BC카드 관계자는 밝혔다.

 

그러나 시스템을 운영하면서 어려움이 없었던 것은 아니다. 신용카드를 정상적으로 사용하고 있는 일부 회원들이 불편을 호소한 것이다. 즉 정상적인 회원이지만 신용카드 사용형태(패턴)가 BC카드사에서 비정상이라고 예측했던 모델과 유사할 경우 가맹점에서 본인확인의 과정을 거치는 불편함이 발생했기 때문에 BC카드사는 이에 대한 보완작업을 서둘렀다.

 

BC카드사는 이러한 부작용을 최소화하기 위해 분실/도난 카드에 대한 조기검색시스템의 모델링을 두번에 걸쳐 개선했으며 현재는 그와 같은 불편을 최소화하고 있다.

 

BC카드사가 분실/도난 카드에 대한 조기검색시스템을 개발한 초기에는 별도의 데이터웨어하우스가 구축돼 있지 않았다.

 

이 때문에 전혀 가공되지 않은 데이터를 데이터마트 형태로 만들어 데이터마이닝 솔루션에서 돌려야만 했다. 따라서 현업이 요청하는 구미에 맞는 데이터를 만들기위해서는 메인 시스템에서 원시 데이터를 데이터마트형태로 전환시키는데 대부분의 시간(전체 소요시간의 70~80%)을 소비했다.

 

따라서 이러한 문제를 해결하기 위해 비씨카드사는 데이터웨어하우스 구축작업을 시작하였다. 오는 9월 데이터웨어하우스 구축 작업이 마무리 되면 그동안 고민거리였던 데이터 가공에 소요되는 인적, 물적 투자를 최소화할 수 있을 것으로 BC카드 관계자들은 예상하고 있다. 즉 현업의 별도 서버에서 원시 데이터를 가공하는데 걸렸던 시간을 최소화함에 따라 시스템 개선에 더 많은 인적, 물적 투자를 하여 보다 완벽한 시스템을 구현할 수 있을 것으로 기대하고 있다.

 

깨끗한 데이터

 

컨설팅 업체인 제임스마틴코리아의 오상훈 사장은 데이터마이닝 솔루션을 돌리기 위해 데이터웨어하우스가 반드시 필요한 것은 아니라고 설명한다.

 

“물론 데이터웨어하우스가 구축돼 있으면 데이터마이닝을 위한 정제된 데이터가 이미 데이터웨어하우스 안에 존재하고 있기 때문에 작업이 한결 쉬워진다. 사실 데이터웨어하우스가 없는 상태에서 데이터마이닝 솔루션을 돌리기 위해서는 데이터를 추출하고 정제하는 작업을 해야 하기 때문에 여간 번거로운 게 아니다. 그러나 반드시 데이터마이닝을 위해 데이터웨어하우스를 구축해야 하는 것은 아니다. 이것은 데이터웨어하우스를 구축했다고 해서 데이터마이닝 솔루션을 반드시 도입해야 하는 것은 아닌 것과 마찬가지다”

 

국내 경우 데이터마이닝 솔루션을 사용하고 있는 기업은 대부분 데이터웨어하우스가 구축돼 있다. 물론 데이터웨어하우스가 없는 상태에서 데이터마이닝 솔루션을 돌리고 있는 기업도 있다. 이 경우는 전혀 가공되지 않은 데이터를 데이터마트 형태로 만들어 데이터마이닝 솔루션에서 사용한다. 그러나 중요한 것은 기업이 가지고 있는 데이터가 정제된 정확한 데이터냐 하는 것이다. 데이터웨어하우스에 있는 데이터라도 정확하지 않은 데이터가 있을 수 있다는 것이다.

 

언스트영 경영컨설팅의 강원석 차장은 데이터웨어하우스가 구축되어 있다고 해서 반드시 그 데이터를 신뢰할 수 있는 것은 아니라고 설명한다.

 

“국내 한 기업의 경우 고객 정보를 다시 조사해서 데이터웨어하우스의 데이터를 갱신하고 있다. 데이터웨어하우스의 데이터를 신뢰하고 있지 못하고 있다는 반증이다. 이런 기업의 경우에는 데이터웨어하우스의 데이터를 바탕으로 데이터마이닝을 돌렸다고 해도 그 결과는 만족스럽지 못할 것이다.”

 

정확하고 깨끗한 데이터가 사용되어야 데이터마이닝 솔루션을 통해 도출된 결과도 신뢰할 수 있다는 것은 당연한 말처럼 들린다. 하지만 이러한 기본적인 사항조차 안돼 있는 것이 국내 기업의 현실이며, 이 때문에 많은 기업들이 고민하고 있다. 데이터가 데이터웨어하우스에서 나온 데이터인지, 아니면 운영시스템에 있는 데이터를 데이터마트 형태로 가공해 사용하는지 등은 그렇게 중요해 보이지 않는다. CIO들은 이런 고민을 하기 전에 과연 우리 회사의 데이터는 신뢰할 수 있는지에 대한 의문을 먼저 제기해야 할 것이다.

 

LG캐피탈

 

고객서비스 향상

 

LG캐피탈은 데이터마이닝 솔루션을 다양하게 사용하고 있는 기업 중 하나다.

 

LG캐피탈은 LG카드의 우량고객을 선별하는데 데이터마이닝 솔루션을 사용하고 있다. 7백만 회원을 대상으로 수익과 리스크 측면에서 두개의 모델을 설정한 다음 이를 바탕으로 우량고객을 선별하고 있다.

 

동일하게 백만원을 사용했다고 해도 일시불사용이냐 할부사용이냐에 따라 LG캐피탈에게 돌아오는 수익은 다를 수 있다. 가맹점 수수료와 차입이자율 등이 다르기 때문이다. LG캐피탈은 이러한 다양한 변수들을 검증하여 실질적인 수익모델이 만들었다. 리스크 모델은 카드회원들이 매월 결제하는 행태를 분석하여 만들어진다. 이를 통해 개별 회원의 리스크 수준이 평가된다.

 

물론 이 모델은 아주 섬세하게 만들어진다. 하루나 이틀정도의 연체는 개별 회원의 위험도 수준에 영향을 미치지 않도록 적정 기간 범위에 포함시키기도 한다.

 

수익과 리스크를 큰 줄기로 하여 고객집단이 분류된다. 카드를 자주 사용하면서도 이익을 많이 내는 우량고객인지 등이 여기서 분류되는 것이다.

 

분류가 끝나면 고객집단의 속성이 파악된다. 예를 들면 한 고객집단이 여행과 관련하여 숙박업소나 교통수단을 자주 이용하는 특성이 나온다면 여행상품 할인권을 발송한다든지 스카이패스 등과 같은 마일리지 적립이 가능한 카드사용을 유도하는 것이다.

 

아울러 수익과 리스크, 그리고 카드이용형태가 우수한 고객집단에게는 전문 상담원을 배치하여 카드 사용과 관련하여 보다 전문적인 서비스를 제공한다. 또한 원하는 서비스는 무엇인지 개선사항은 없는지 등을 묻고 이를 새로운 상품개발에 반영한다.

 

LG캐피탈에서는 매출을 올리는데 직접적으로 데이터마이닝 솔루션의 도움을 얻고 있으며 고객측면에서도 보나 나은 서비스를 받는데 데이터마이닝 솔루션이 적지 않은 역할을 하고 있는 것이다.

 

LG캐피탈은 영업부서에서 상품을 개발하는 데에도 데이터마이닝 솔루션의 도움을 얻고 있다. 영업부서에서는 LG카드로 할부구입을 많이 사용하는 고객들에게 관심을 갖는다.

 

할부 중에서도 전자제품에 일단 초점을 맞추고 이들 고객의 패턴을 1년이나 3년주기로 분석한다. 결혼시즌이나 입학, 졸업시기에 전자제품의 할부구입 패턴을 분석하는 것이다. 이러한 패턴분석을 통해 가족이 많이 있으며 그 집안에서 중심이 되는 위치에 있는 고객들을 유추해 낸다. 가족이 많다는 가정을 바탕으로 이들에게 할부 외에 학자금대출 등의 다른 상품을 권함으로써 회사의 매출을 높이는 것이다.

 

LG캐피탈은 97년부터 데이터마이닝 도입을 검토했으며 98년 파일럿 프로젝트 후 99년 1월부터 본격적으로 IBM의 데이터마이닝 솔루션인 인텔리전트 마이너를 사용하고 있다. LG캐피탈은 데이터웨어하우스를 구축하면서 데이터마이닝 솔루션을 도입했기 때문에 데이터웨어하우스에 이미 정제되어 있는 데이터를 사용하고 있다. 때문에 데이터웨어하우스가 구축되어 있지 않은 곳과 비교해서 효율적으로 데이터마이닝 툴을 돌리고 있다.

 

마이닝 전문가와 현업전문가

 

데이터웨어하우스가 구축되어 있지 않은 상태에서 데이터마이닝 포맷에 맞게 데이터를 변환하는데 걸리는 시간은 전체의 80%이상을 차지하지만 데이터웨어하우스가 구축돼 있으면 이 시간은 40%정도로 줄어든다.

 

그러나 이렇게 데이터 변환 시간이 줄어드는 것도 중요하지만 이보다 더 중요한 부분이 있다고 지적하는 사람도 있다.

 

LG캐피탈에서 데이터마이닝 작업을 책임지고 있는 곽봉석 대리는 데이터웨어하우스가 구축된 상태에서 데이터마이닝 솔루션을 돌릴 경우의 이점은 데이터정제와 추출 시간의 단축도 있지만 이 보다는 데이터를 반복적으로 추출할 경우의 용이성과 효율성에 있다고 설명한다.

 

“데이터마이닝이 솔루션을 돌릴 경우 데이터웨어하우스가 없고 데이터베이스에서 데이터를 직접 뽑아 쓴다고 해도 RDBMS가 체계적으로 잘 만들어져 있다면 문제가 없다.

 

데이터마이닝 툴이 원하는 포맷으로 변환하는데 데이터웨어하우스 있는 것과 크게 차이가 없기 때문이다. 데이터웨어하우스가 있는 경우의 장점은 데이터를 반복 추출 시 좀 더 용이하고 효율적이라는 것이다. 데이터마이닝은 비즈니스 가설을 검증하는 지원도구다. 따라서 가설이 틀렸을 경우에는 다시 데이터를 추출해야 하는데 이러한 반복 작업을 하는데 데이웨어하우스가 용이성과 효율성을 제공한다. 데이터웨어하우스가 있을 때의 장점은 여기에 있는 것이다. 아울러 분석주제에 더 신경을 쓸 수 있다는 것도 중요하다. 즉, 데이터 정제나 추출에 많은 시간을 할애하기 보다는 마이닝의 결과물을 더 정밀하게 만드는 많은 시도와 분석을 할 수 있다는 것이 중요하다.”

 

데이터마이닝에서 중요한 것은 툴을 통해 나온 결과가 아니라 이 자료를 통해 해석하고 분석할 수 있는 마이닝 전문가와 현업사용자의 능력이라고 전문가들은 지적한다. 아직까지는 데이터마이닝을 통해 산출된 내용이 한번에 비즈니스 패턴이나 룰을 제시해주고 있지는 못하기 때문이다.

 

제임스마틴코리아의 오상훈 사장도 이와 의견을 같이 한다.

 

“교통문화를 결정하는 것은 자동차가 아니다. 교통문화는 운전자에 의해 결정된다. 데이터마이닝도 마찬가지다. 아직까지는 데이터마이닝을 사용하는 현업전문가의 예리한 눈이 있어야만 비즈니스 룰과 패턴이 도출될 수 있다. CIO는 따라서 데이터마이닝 솔루션이 무슨 마법상자라도 되는 것으로 착각해서는 안된다. 데이터마이닝 솔루션은 기업의 의사결정을 도와주는 훌륭한 도구, 그 이상 이하도 아닌 것이다.”

 

데이터마이닝 솔루션은 비즈니스 가설을 하나씩 검증해 가는 지원도구일 뿐 거기에는 비즈니스 관점에서 데이터마이닝의 산출물을 분석할 수 있는 마이닝 전문가와 현업사용자가 반드시 필요하다는 것을 CIO는 명심해야 한다.

 

그렇기 때문에 데이터마이닝을 도입해서 몇 십억 원의 효과를 보았다는 말은 별의미가 없다고 전문가들은 지적한다.

 

LG캐피탈의 한 관계자도 이에 별 다른 이견을 제시하지 않는다.

 

“대부분의 솔루션이 마찬가지지만 그 효과를 정량적으로 측정하는 것은 매우 힘들다. 데이터마이닝도 마찬가지다. 설사 그 효과가 일정한 수치로 나왔다고 해도 그것이 전적으로 데이터마이닝 솔루션에 의한 것이라고 받아들여서는 안 된다. CIO들은 중역보고용으로 올라온 데이터마이닝 효과 수치에 너무 집착해서는 안 된다”

 

데이터마이닝 솔루션의 특징 중 하나가 구축 난이도가 크지 않으면서도 투자효과가 확실하다는 것이다. 즉 많지 않은 투자로도 그 이상의 효과를 신속하게 볼 수 있다는 것이다. 따라서 이 때문에 CIO들은 데이터마이닝 솔루션의 ROI에 집착할 우려가 있으며 이런 함정에 빠져 성급하게 데이터마이닝 솔루션을 과대평가 하거나 과소평가해서는 안 된다고 전문가들은 지적한다.

 

버튼만 누르는 광부

 

국내 기업의 경우 데이터마이닝 솔루션은 통신, 금융, 유통산업을 중심으로 도입되고 있으며 적용 산업부문은 점차 확대되고 있는 추세다. 구축을 완료하고 실제 업무에서 사용하고 있는 업체는 10여 곳에 이르며 도입을 고려중이거나 구현중인 업체도 밝혀진 곳만 10여개에 이르고 있다.

 

데이터마이닝 도입을 고려하는 기업에게 특히 중요하게 요구되는 것 중 하나가 데이터마이닝 솔루션 도입 목표가 다른 어떤 솔루션보다 구체적이고 정확히 세워져 있어야 한다는 것이다.

 

한국IBM의 오병준 차장은 구체적인 목표가 마련되지 않으면 데이터마이닝의 효과를 기대한 만큼 얻기 어렵다고 설명한다.

 

“구체적인 사업방향이 제시돼야 한다. 사업방향이 고객만족이라면 거기서 더 들어가 고객의 이탈을 방지 등으로 정확히 명시돼야 한다. 여기에 이에 대한 재무적 지표가 함께 세워질 때 데이터마이닝의 효과를 기대할 수 있다.”

 

그러나 무엇보다 중요한 것은 데이터마이닝을 통해 나온 결과를 활용할 수 있는 조직 프로세스가 갖춰져 있느냐 하는 점이다.

 

언스트영경영컨설팅의 강원석 차장은 이를 기업문화 측면에서 접근하고 있다.

 

“데이터마이닝을 활용해 나온 결과를 수용하고 이를 의사결정에 반영할 수 있는 업무 프로세스가 마련돼 있지 않으면 결과적으로 데이터마이닝 솔루션은 별 의미가 없게 된다. 예전처럼 ‘김과장’이나 ‘이차장’의 감에 의한 의사결정이 아니라 정량적으로 나타난 데이터를 가지고 업무가 진행돼야 하는 것이다. 이것이 모든 업무 프로세스에 정착돼야 데이터마이닝 솔루션의 효과가 나타날 수 있다.”

 

데이터마이닝 솔루션은 기존에 미리 정의된 정보를 이용하는 지극히 수동적인 정보활용에서 벗어나 고객의 요구에 의해 다양하고 다각적으로 정보를 분석함으로써 보다 능동적으로 정보를 활용한다는 측면에서 커다란 의미가 있다.

 

국내의 경우 아직 데이터마이닝에 대한 정확한 이해가 성숙돼 있지 않기 때문에 여러 오해가 존재하는 것 또한 사실이다. 데이터마이닝이 자칫 기업의 지적 호기심을 충족시키는 수단으로 전락하지 않기 위해서는 철저하게 비즈니스 관점에서 바라볼 필요가 있으며 기업이 지향하는 목표속에서의 한 부분으로 데이터마이닝을 바라봐야 한다고 전문가들은 지적한다.

 

광부가 무엇을 캐야 하는지도 모른 체 무조건 굴착기의 버튼만 누르고 있어서는 안되기 때문이다.

 

원본출처 : http://www.cio.seoul.kr/990801/m5.html

[Top]
No.
제목
작성자
작성일
조회
175Metadata 의 혁명
정재익
2001-12-14
4704
160지능형 인터넷 세상을 여는 XML
정재익
2001-12-11
6035
158데이터 마이닝, 걷히는 안개를 바라보면서
정재익
2001-12-11
5996
154데이터 마이닝
정재익
2001-12-08
5210
153Data Management 데이타 통합시 비용 줄이는 7가지 조언
정재익
2001-12-08
4106
152미들웨어의 신화를 벗긴다
정재익
2001-12-08
4780
151데이터 폭풍이 몰려 오고 있다.
정재익
2001-12-08
4122
Valid XHTML 1.0!
All about the DATABASE... Copyleft 1999-2023 DSN, All rights reserved.
작업시간: 0.051초, 이곳 서비스는
	PostgreSQL v16.1로 자료를 관리합니다