PPT에 주어진 예시의 경우 Outlier는 min or max value에 포함하지 않고 따로 점을 찍는다고 하셨는데
E041 c 항목 boxplot에 경우 outlier를 Maximum value에 포함시키셨습니다. 해당값은 1.5IQR 값을 초과합니다. Outlier가 있음에 불구하고 해당 포인트까지 선을 이으셨습니다
1) Outlier가 1.5(IQR)을 벗어나는 경우 점을 따로 찍으면 되나요?
2) 이 경우 max or min value는 outlier 그 다음 값을 넣으면 되나요?
=========================
음.. 메인 강의였었나요? 일단 모든 데이터값은 min max 에 포함되는 것이 맞습니다.
outlier 도 min max 에 포함되지요.
다만 boxplot 을 그릴 시 outlier 는 점으로 표시하며, box 의 whisker 는 outlier 가 아닌 점까지 이어집니다. 만일 그렇지 않았다면 잘못된 것이므로.. 확인해보겠습니다.
즉,
1) 1.5IQR 을 벗어나야 outlier 이므로, 그 경우 점으로 표시하면 됩니다.
2) outlier 와 무관하게 데이터에서 가장 큰값이 max 가장작은값이 min 입니다.
혹시나해서 덧붙이지만,
boxplot 은 사실 두종류가 있어서, 점으로 outlier 를 포함하는 경우가 있고 그렇지 않은 경우도 있어요.
그런경우는 outlier 임에도 whisker 가 끝까지 갈 수도 있겠죠.
원래 boxplot 은 outlier 를 표시하지 않았고, 개량된 'improved boxplot' 에 와서야 outlier 를 점으로 표시하는 것을 볼 수 있습니다.
참고가 됬으면 해요.