자격증/ADSP

R기초와 데이터마트

말감공 2025. 10. 27. 17:50
728x90

데이터마트

데이터 웨어하우스의 한 분야로 특정 목적을 위해 사용

요약 변수와 파생 변수

  • 요약 변수: 원래의 데이터로부터 기본적인 통계 자료로 추출한 변수, 재활용성 높음
  • 파생 변수: 특정 목적을 만족하는 변수, 논리적 타당성 필요

데이터 탐색

탐색적 데이터 분석(EDA)

데이터 관계를 찾기 위해 통계값과 분포등을 시각화하고 분석하는 것

결측값

  • 존재하지 않는 데이터, N/A나 null등으로 표시
  • 결측값 대치 방법
    • 단순 대치법: 그냥 삭제, 손실 많을지도
    • 평균 대치법(=비조건부 평균 대치법): 평균값으로 결측값 대치
    • 조건부 평균 대치법: 회귀분석 결과로 대치
    • 단순 확률 대치법: 확률적 선택
      • K-Nearest Neighbor: 가까운 응답
    • 다중 대치법: 여러 번 대치, 대치 → 분석 → 결합

이상값

  • 극단적으로 크거나 작은 값
  • 이상값 항상 제거가 정답은 아님
  • 이상값 판단
    • ESD(Extrme Studentized Deviation): 평균으로부터 표준편차 3만큼 떨어진 값들을 이상값으로 인식
    • 사분위수: Q1 - 1.5IQR보다 작거나, Q3+1.5IQR보다 크면 이상값

사분위

출처

- 이지패스 ADSP

- https://thebook.io/080217/0262/

 

모두의 R 데이터 분석: 7 boxplot( ) 함수: 상자 그림 그리기

더북(TheBook): (주)도서출판 길벗에서 제공하는 IT 도서 열람 서비스입니다.

thebook.io

 

'자격증 > ADSP' 카테고리의 다른 글

통계 분석  (1) 2025.10.28
분석 마스터 플랜  (0) 2025.10.27
분석 기획과 분석 방법론  (0) 2025.10.27
데이터 가치와 미래  (0) 2025.10.22
데이터 이해  (0) 2025.10.20