데이터 분석에서 시각화는 데이터를 이해하고 의사 결정을 내리는 데 중요한 역할을 합니다. 오늘은 **박스 플롯(Box Plot)**에 대해 알아보고, 이를 활용하여 데이터를 분석하는 방법을 소개하겠습니다. 또한, 실제 업무에서 활용할 수 있는 예제를 통해 이해를 돕겠습니다.
박스 플롯이란?
박스 플롯은 데이터의 분포와 이상치를 한눈에 파악할 수 있는 시각화 도구입니다. 아래 이미지는 박스 플롯의 기본 구조를 시각적으로 보여줍니다:
이는 데이터의 다섯 가지 주요 요약 통계치를 시각적으로 표현합니다: 데이터의 분포와 이상치를 한눈에 파악할 수 있는 시각화 도구입니다. 이는 데이터의 다섯 가지 주요 요약 통계치를 시각적으로 표현합니다:
- 최소값 (Minimum): 이상치를 제외한 데이터의 최솟값
- 제 1사분위수 (Q1): 하위 25% 데이터의 값
- 중앙값 (Median): 데이터의 중간값
- 제 3사분위수 (Q3): 상위 25% 데이터를 포함하는 값
- 최대값 (Maximum): 이상치를 제외한 데이터의 최댓값
추가로, 박스 플롯은 데이터의 이상치(Outlier)도 시각적으로 표시해줍니다.
박스 플롯은 언제 사용하는가?
박스 플롯은 아래와 같은 상황에서 매우 유용합니다:
- 데이터 분포 비교: 예를 들어, 여러 연령대의 평균 월급을 시각적으로 비교할 때 유용합니다. 이 경우 각 연령대의 데이터 분포와 중앙값 차이를 쉽게 파악할 수 있습니다.
- 이상치 탐지: 생산 공정 데이터에서 특정 기계의 출력 값이 다른 기계들과 비교해 얼마나 벗어나는지 확인할 때 사용할 수 있습니다.
- 요약 통계 확인: 마케팅 캠페인 데이터에서 각 채널별 클릭 수의 분포를 요약하여 캠페인 효과를 분석할 때도 적합합니다.
특히, 다중 그룹 비교가 필요하거나, 특정 그룹의 이상치가 분석에 영향을 미치는지 확인하고 싶을 때 강력한 도구가 됩니다. 예를 들어, HR 데이터에서 직무별 지원 건수를 비교하거나, 특정 직무에서 유난히 높은 지원 건수가 있는지 확인할 때 박스 플롯을 활용할 수 있습니다.
실제 업무 예제: 구직자 연령대별 지원 건수 분석
시나리오
HR 플랫폼에서 연령대별 구직자들이 특정 직무에 얼마나 지원했는지 분석하고자 합니다. 이를 통해 각 연령대의 지원 건수 분포를 비교하고, 특정 연령대에서 이상치가 발생했는지 확인하려고 합니다.
데이터 예제
다음은 연령대별 지원 건수 데이터입니다. 아래 박스 플롯 시각화에서 각 연령대의 데이터 분포를 확인할 수 있습니다. 예를 들어, 30대의 이상치로 나타난 50건이 다른 연령대와 어떻게 차별화되는지 시각적으로 나타납니다: 지원 건수 데이터입니다:
연령대 | 지원 건수 |
---|---|
20대 | 15, 18, 20, 22, 23, 27, 35 |
30대 | 10, 12, 15, 15, 18, 20, 50 |
40대 | 5, 8, 10, 12, 15, 15, 20 |
50대 | 3, 5, 8, 10, 12, 12, 15 |
박스 플롯 시각화 예시
Python 코드
import matplotlib.pyplot as plt
# 데이터 준비
age_groups = ['20대', '30대', '40대', '50대']
data = [
[15, 18, 20, 22, 23, 27, 35], # 20대
[10, 12, 15, 15, 18, 20, 50], # 30대
[5, 8, 10, 12, 15, 15, 20], # 40대
[3, 5, 8, 10, 12, 12, 15] # 50대
]
# 박스 플롯 생성
plt.figure(figsize=(8, 6))
plt.boxplot(data, labels=age_groups, patch_artist=True)
plt.title('연령대별 지원 건수 분포', fontsize=14)
plt.xlabel('연령대', fontsize=12)
plt.ylabel('지원 건수', fontsize=12)
plt.grid(axis='y', linestyle='--', alpha=0.7)
plt.show()
결과 해석
박스 플롯을 통해 다음과 같은 인사이트를 얻을 수 있습니다:
- 20대와 30대의 분포 차이: 20대의 지원 건수는 비교적 고르게 분포되어 있으며, 30대는 50건의 이상치가 확인됩니다. 이러한 이상치는 특정 직무에서 과도한 관심이 집중되었을 가능성을 시사하며, 해당 직무의 특성과 지원 경향을 추가로 분석해야 합니다.
- 연령대별 중앙값 비교: 40대와 50대의 중앙값이 유사하지만, 분포 폭은 40대가 더 큽니다. 이는 40대 구직자의 지원 패턴이 더 다양하다는 것을 나타낼 수 있습니다.
- 이상치 탐지: 30대의 50건은 다른 값들과 동떨어져 있으며, 특정 이벤트(예: 한정된 공고, 특별 채용 공지)로 인해 발생했을 가능성이 있습니다. 이는 캠페인 효과 분석이나 특정 채널의 영향 평가에 중요한 힌트를 줄 수 있습니다.
정리
박스 플롯은 간단하지만 강력한 시각화 도구로, 데이터의 분포와 이상치를 파악하는 데 유용합니다. 특히 여러 그룹의 데이터를 비교하거나, 데이터의 이상치를 탐지하는 데 탁월한 도구입니다.
장점
- 데이터의 요약 통계치를 시각적으로 쉽게 확인 가능
- 이상치 탐지에 유용
- 여러 그룹 간 비교를 직관적으로 수행 가능
단점
- 데이터의 크기나 구체적인 값을 알기 어려움
- 이상치가 많을 경우 해석이 어려울 수 있음
위와 같은 HR 플랫폼 사례뿐만 아니라, 마케팅, 제품 분석 등 다양한 분야에서 활용할 수 있습니다. 여러분도 데이터를 시각화할 때 박스 플롯을 활용해보세요!
박스 플롯은 간단하지만 강력한 시각화 도구로, 데이터의 분포와 이상치를 파악하는 데 유용합니다. 위와 같은 HR 플랫폼 사례뿐만 아니라, 마케팅, 제품 분석 등 다양한 분야에서 활용할 수 있습니다. 여러분도 데이터를 시각화할 때 박스 플롯을 활용해보세요!
답글 남기기