반응형

빅데이터 서비스 교육/PythonLibrary 3

PythonLib Pandas

2020 인구수면적(㎢) 서울96020000605.2 부산3344000770.1 광주14880501.1 대구2419000883.5 2차원 보기 편하게 컬럼이였던 passengerid를 인덱스 처럼 쓴다. pandas에서 컬럼 -> series라 부르고 전체를 data frame이라 부른다 import pandas as pd # pandas 모듈을 불러오면서 pd라는 별칭으로 부른다 Series 생성 (1차원 자료 생성) # 인구수 데이터 data = [9602000,3344000,1488000,2419000] population = pd.Series(data) population population.values 0 9602000 1 3344000 2 1488000 3 2419000 dtype: int64..

PythonLib Numpy

lst22 = [[1.5,2.5,3.5],[1.3,2.3,3.6]] arr22 = np.array(lst22,dtype=np.int64) arr22 Numpy 빠르고 효율적인 연산 제공(고성능 과학계산) 다차원 배열 제공 (ndarray 클래스) 반복문 없이 전체 데이터 배열 연산 가능 -> 표준 수학 함수 import numpy as np # 넘파이 모듈을 불러와서 np라고 부르겠다 # 어떤게 배열일까? arr = np.array([1,2,3,4]) print(arr) arr + arr -> 리스트는 [1 2 3 4 1 2 3 4]로 합쳐지는데 array 배열은 같은자리 끼리 합으로 계산 [1 2 3 4] array([2, 4, 6, 8]) array 특징 동일한 자료형을 가지는 값들이 배열 형태로 존..

PythonLib 모듈, 데이터분석

모듈 함수 또는 변수 또는 클래스를 모아 놓은 파일 다른 파이썬 프로그램에서 불러와서 사용할 수 있게끔 만든 파이썬 파일 직접 만들고 사용, 배포할 수 있음 확장자가 .py인 파일 모듈과 라이브러리 모듈의 의미는 구성단위, 라이브러리 도서관이라는 뜻 프로그래밍 에서는 동일한 의미라고 봐도 무방 라이브러리 사용법 import 라이브러리명 as 별칭 from 라이브러리명 import 특정함수명,특정함수명2 정형: 형태가 정해져있는 데이터들 비정형: 형태가 정해져 있지 않고 시간이 지남에 따라 변하는것 ex) 음악 대용량의 데이터로 부터 가치추출, 결과를 분석하는것 ↓ 이를 data mining 데이터 분석 처리 단계 문제정의 분석목표 어떻게 처리해나갈지 방법론 어떤 데이터가 필요할지 데이터 수집 데이터 베이..

반응형