본문 바로가기

빅데이터 분석기사2

빅데이터 분석기사 - 데이터 전처리 데이터 정제 💡 1. 데이터 전처리의 중요성 데이터 전처리는 반드시 거쳐야 하는 과정 전처리 결과가 분석 결과에 직접적인 영향을 주기 때문에 반복적으로 수행해야 함 데이터 정제 → 결측값 처리 → 이상값 처리 → 분석 변수 처리 순서로 진행 ※데이터 분석 중 가장 많은 시간이 소요되는 단계 = 데이터 수집 + 전처리(약 80%) 💡 2. 데이터 정제(Data Cleansing) 개념 결측값을 채우거나 이상값을 제거하는 과정을 통해 데이터의 신뢰도를 높이는 작업 💡 3. 데이터 정제 절차 1. 데이터 오류 원인 분석 원인 설명 오류 처리 결측값(Missing Value) 필수 데이터가 입력되지 않고 누락된 값 중심 경향값(평균값, 중앙값, 최빈값) 넣기 분포기반(랜덤에 의해 자주 나타나는 값 넣기) 처리 .. 2020. 12. 13.
빅데이터 분석기사 - 용어정리 빅데이터 분석기사를 공부하면서 나왔던 용어들을 정리해보자. ※ 특별한 기준은 없다! ※ 공부하면서 지속적으로 업데이트 하자! 과적합(Over-fitting) 제한된 학습 데이터 세트에 너무 과하게 특화되어 새로운 데이터에 대한 오차가 매우 커지는 현상 기하 평균 n개의 양수 값을 모두 곱한 것의 n제곱근 단일 장애 지점(SPOF; Single Point of Failure) 시스템 구성요소 중에서 장애로 인해 동작하지 않으면 전체 시스템이 중단되는 요소 데이터 마이닝(Data Mining) 대규모로 저장된 데이터 안에서 체계적이고 자동적으로 통계적 규칙이나 패턴을 찾아내는 기법 데이터 사전(Data Dictionary) 자료 요소, 자료 요소들의 집합, 자료의 흐름, 자료 저장소의 의미와 그들간의 관계,.. 2020. 12. 12.