전산직/데이터베이스

지지도(Support)와 신뢰도(Confidence)

glorypang 2025. 11. 9. 16:13
728x90
반응형
SMALL

연관규칙 분석이란?

  • 데이터 집합에서 항목 간의 연관 관계(함께 발생하는 패턴) 를 찾아내는 기법
  • 예:
  • “빵을 산 사람은 우유도 함께 산다.”
    규칙 형식:
    빵 → 우유

지지도 (Support)

정의

전체 거래(Transaction) 중에서 A와 B가 함께 나타난 비율

수식

Support(A → B) = (A와 B가 동시에 발생한 거래 수) / (전체 거래 수)

의미

  • 규칙의 빈도(등장 확률) 를 나타냅니다.
  • 얼마나 자주 A와 B가 함께 나타나는가를 보는 것.

예시

거래  구매 항목
T1 빵, 우유
T2 빵, 기저귀, 맥주
T3 우유, 기저귀, 콜라
T4 빵, 우유, 기저귀, 맥주
  • 전체 거래 수 = 4
  • “빵 → 우유”의 지지도 =
    (빵과 우유가 같이 등장한 거래 T1, T4) / 4 = 2/4 = 0.5 (50%)

즉, 전체 거래의 50%에서 빵과 우유가 함께 등장했다.


신뢰도 (Confidence)

정의

“A를 샀을 때 B도 함께 살 확률”

수식

Confidence(A → B) = (A와 B가 동시에 발생한 거래 수) / (A가 발생한 거래 수)

의미

  • 규칙의 정확도(조건부 확률) 를 나타냅니다.
  • A가 주어졌을 때, B가 나타날 가능성.

예시

  • “빵 → 우유”의 신뢰도 =
    (빵과 우유가 같이 등장한 거래 2개) / (빵이 등장한 거래 3개: T1, T2, T4) = 2/3 ≈ 0.67 (67%)

즉, 빵을 산 사람 중 67%가 우유도 샀다.


지지도 vs 신뢰도 비교

구분  지지도(Support) 신뢰도(Confidence)
의미 A와 B가 함께 발생한 비율 A일 때 B가 발생할 확률
관점 전체 거래 중 A 거래 중
역할 규칙의 “빈도” 규칙의 “신뢰성”
해석 얼마나 자주 나타나는가 얼마나 믿을 수 있는가

 

728x90
반응형
LIST