반응형
모듈
- 함수 또는 변수 또는 클래스를 모아 놓은 파일
- 다른 파이썬 프로그램에서 불러와서 사용할 수 있게끔 만든 파이썬 파일
- 직접 만들고 사용, 배포할 수 있음
- 확장자가 .py인 파일
모듈과 라이브러리
- 모듈의 의미는 구성단위, 라이브러리 도서관이라는 뜻
- 프로그래밍 에서는 동일한 의미라고 봐도 무방
라이브러리 사용법
- import 라이브러리명 as 별칭
- from 라이브러리명 import 특정함수명,특정함수명2
정형: 형태가 정해져있는 데이터들
비정형: 형태가 정해져 있지 않고 시간이 지남에 따라 변하는것 ex) 음악
대용량의 데이터로 부터 가치추출, 결과를 분석하는것
↓
이를 data mining
데이터 분석 처리 단계
- 문제정의
- 분석목표
- 어떻게 처리해나갈지 방법론
- 어떤 데이터가 필요할지
- 데이터 수집
- 데이터 베이스로 부터
- 크롤링 (웹상의 데이터를 긁어온다)
- csv,xml,json (공공포털사이트 통해 다운)
- survey 설문조사 (데이터를 직접 찾는것)
- IoT 센서 데이터
- 데이터 전처리 (preprocessing)
- 데이터를 깔끔하게 만드는 작업
- 결측치(값이 비어있는 것) 처리: 빈 값을 채워줌(대체값: 평균, 최빈(많이등장),기술통계량 등등..)
- 이상치(일반적이지 않은 값) 처리: 대체값으로 변경
- 특성(열) 공학: scaling(규모변경) ex) 155~200의 범위를 -> 0~45로 단위를 조정해서 규모변경
- binning(수치형 -> 범주형), encoding(범주형 -> 수치형), transform변형(특성값을 분리or연산 하는 작업)
- 데이터 분석(탐색)
- 각 특성의 의미를 파악
- 범주형 데이터 파악(categorical data): ex) 생존/사망, 성별, 취업여부, 혈액형, 지역, 합격여부
- 수치형 데이터 파악(numerical data): ex) 사고건수, 학급인원수, 키, 몸무게, 혈압, 집값, 주식가격, 미세먼지지수
- 변수간의 상관관계 파악
- 데이터 예측
- 머신러닝, 딥러닝 모델을 사용해서 예측
- 지도학습, 비지도학습 -> 머신러닝 학습종류
- 지도학습: linearmodel,logistic, decisiontree, knn, ensemblemodel 등
- 데이터 서비스/시각화
- 그래프로 시각화 : 산점도, 선, 막대, 히스토그램
- 서비스화 : 웹서비스, 모바일서비스 등..
반응형
'빅데이터 서비스 교육 > PythonLibrary' 카테고리의 다른 글
PythonLib Pandas (0) | 2022.05.04 |
---|---|
PythonLib Numpy (0) | 2022.05.04 |