통계학을 공부하지 않아서 정말 낯선 분야였는데,
오늘 하나 배웠네요.
8.2에서 이 통계학에서 쓰이는 각종 집계함수들이 대거 등장했습니다.
그 가운데 하나.
상관계수라는 놈.
일단 쉽게,
이값은 0에서 1까지 값을 가집니다.
그리고 그값이 의미하는 바는
1.00 : 완전한 상관관계
0.90 - 0.99
0.70 - 0.90 : 높은 상관관계
0.40 - 0.70 : 중간정도의 상관관계
0.20 - 0.40 : 낮은 상관관계
0.10 - 0.20 : 극히 낮은 상관관계
0 : 관계가 전혀 없음
이렇다네요.
이 값을 구해내는 집계함수가 corr() 입니다.
구체적인 예로,
한 게시판에서 일반게시물과 댓글 게시물의 상관 관계,
즉, 일반게시물에서 댓글이 달려지는 그 관계를 상관계수로 표현한다면,
1이라면, 모든 일반 게시물에 대해서 그 댓글이 존재한다는 것을 의미하고,
0이면 전혀 존재하지 않는다는 것을 의미합니다.
단지 일반글에 대한 댓글의 비율로도 표현될 수도 있겠지만,
통계학에서는 이것을 상관계수로 풀어간다고 하네요.
이때 쓰이는 함수가 corr() 이라네요.
테스트한 자료로는
select corr(wr_id * 1.0,wr_parent * 1.0) from g4_board_new
입니다.
gnuboard 에서 새로 올라온 글에서의 일반게시물과 그에 딸린 글의 상관 관계를 구하는 것입니다.
실무에 얼마나 쓸모가 있을지는 모르겠지만,
오늘 재미난 것 하나 배웠네요. :)
또 심심하면 이 관련을 소개하겠습니다.
저보다 통계학 잘 아는 분이 소개해주면 훨씬 더 나을 것같은데,
누가 없을까나.
|