728x90
데이터마트
데이터 웨어하우스의 한 분야로 특정 목적을 위해 사용
요약 변수와 파생 변수
- 요약 변수: 원래의 데이터로부터 기본적인 통계 자료로 추출한 변수, 재활용성 높음
- 파생 변수: 특정 목적을 만족하는 변수, 논리적 타당성 필요
데이터 탐색
탐색적 데이터 분석(EDA)
데이터 관계를 찾기 위해 통계값과 분포등을 시각화하고 분석하는 것
결측값
- 존재하지 않는 데이터, N/A나 null등으로 표시
- 결측값 대치 방법
- 단순 대치법: 그냥 삭제, 손실 많을지도
- 평균 대치법(=비조건부 평균 대치법): 평균값으로 결측값 대치
- 조건부 평균 대치법: 회귀분석 결과로 대치
- 단순 확률 대치법: 확률적 선택
- K-Nearest Neighbor: 가까운 응답
- 다중 대치법: 여러 번 대치, 대치 → 분석 → 결합
이상값
- 극단적으로 크거나 작은 값
- 이상값 항상 제거가 정답은 아님
- 이상값 판단
- ESD(Extrme Studentized Deviation): 평균으로부터 표준편차 3만큼 떨어진 값들을 이상값으로 인식
- 사분위수: Q1 - 1.5IQR보다 작거나, Q3+1.5IQR보다 크면 이상값

출처
- 이지패스 ADSP
- https://thebook.io/080217/0262/
모두의 R 데이터 분석: 7 boxplot( ) 함수: 상자 그림 그리기
더북(TheBook): (주)도서출판 길벗에서 제공하는 IT 도서 열람 서비스입니다.
thebook.io
'자격증 > ADSP' 카테고리의 다른 글
| 통계 분석 (1) | 2025.10.28 |
|---|---|
| 분석 마스터 플랜 (0) | 2025.10.27 |
| 분석 기획과 분석 방법론 (0) | 2025.10.27 |
| 데이터 가치와 미래 (0) | 2025.10.22 |
| 데이터 이해 (0) | 2025.10.20 |