지금은 데이터 누적량이 적지만 앞으로 점점 방대해질 시스템입니다.
근데 데이터 하나하나가 중요한 데이터라 in에 대한 데이터 비손실율이 100% 보장되어야 하거든요.
어디서 보기에 mongodb가 100%의 데이터 비손실율을 보장하지는 않는다고 하는데 사실인가요?
데이터 정확성을 검증하는 절차/정책을 만들어야 할 듯 합니다. 빅데이터의 수집 후 얼마나 수집이 되었는지 로그 데이터 빠진 것은 없는지 등등 빅데이터 작업을 하게 되면 이런 검증 프로그램 짜는 것도 상당한 공수가 들어갑니다. 예를 들어 수집 서버가 30개인데 어떻게 수집 디렉터리를 구성하고, 데이터가 다 받아졌는지 확인하고 안되면 다시 수집하고 등등 말이죠. 빅데이터로 솔루션의 대명사인 하둡 관련 글 중의 하나로 기억하는데 요점은 다음과 같습니다. 하둡이 분산 저장을 한다고 해서 백업을 하지 않으면 안된다. 데이터의 분산 처리가 목적인 거지 백업이 목적이 아니다. 네임서버가 잘못될 경우 하둡의 모든 데이터는 소실될 수 있다. 반드시 백업 정책을 세워라. 였던 걸로 기억합니다.