Lesson 9와 10에서 지속적으로 언급되었던 부분 중 correlation은 linear relationship 에서만 meaningful 하다는 내용이 있었는데, 이에 대해 궁금증이 생겨서 질문합니다!
추가적으로 조사해보니 correlation coefficient는 relationship 이 how linear 한 지를 나타낸다고 되어있는데, 저희가 배운 correlation coefficient 공식에서 이러한 결론을 어떻게 도출할 수 있는지 수학적으로 알려주시면 감사하겠습니다. 정확한 설명을 받고 싶은데 어디에 찾아봐도 다 correlation은 linear 를 설명한다고만 나오고 정확한 이유나 증명이 없어서요..ㅠ
correlation이 어떻게 linear relationship 만을 나타내는지 수학적으로 증명(?)할 수 있는 방법을 알려주세요. ㅠ
===========================================================
가장 어려운 질문이 이런 fundamental 한 것에 관련된 것이지요 ^^
음 일반적인 수학공식처럼 증명하기란 좀 힘들어요. 하지만 이렇게 생각해 보세요:
(1,1), (2,2), (3,3) 이런 데이터에선 x, y 평균은 둘다 2, 표편은 1이죠 (n-1로 나눔)
공식대로 r값 구해보면 ( -1*-1 + 0 + 1*1 )/2 해서 1 이 나와요.
slope 이 positive 일 경우 이런식으로 -는 - 끼리 곱해져서 결국 양의 값이 나오게 되지요.
(3,1) (2,2) (1,3) 이 데이터라면 역시 평균 표편은 위와 같은데
r값은 ( -1*1 + 0 + 1*-1)/2 해서 -1 이 나오죠.
두 경우 세 점이 모두 한 선 위에 있을 경우이므로 1, -1 이 정확하게 나왔죠.
반면에, 위 경우에서 점 중 하나를 선 밖에 있는 점으로 바꾼다면, 예를 들어 (1,3)->(1,4)
이러면 곱한 값들이 서로 상쇄되면서 위의 경우보다는 작은 값들이 나오는 걸 볼 수 있어요.
이렇게 귀납적으로 보면 증명은 아니지만 이해는 어느정도 될꺼에요 ^^
이런 깊이있는 질문을 할 수 있을 정도로 고민하는 자세 좋아요!!
Keep it up !
PS. 물론 증명하는 건 시험에 전혀 나오지 않으므로.. 강의에는 포함할 수 없었어요 ㅠ