heatmap 히트 맵(heat map)은 열을 뜻하는 히트(heat)와 지도를 뜻하는 맵(map)을 결합시킨 단어로, 색상으로 표현할 수 있는 다양한 정보를 일정...
boxplot ‘상자 그림’(box plot, boxplot)은 수치적 자료를 표현하는 그래프입니다. 이 그래프는 가공하지 않은 자료 그대로를 이용하여 그린 것이 아니...
histogram 히스토그램(histogram)은 표로 되어 있는 도수 분포를 정보 그림으로 나타낸 것입니다. 더 간단하게 말하면, 도수분포표를 그래프로 나타낸 것...
subplot subplot은 하나의 figure안에 여러개의 그래프를 그릴 수 있게 만들어주는 메소드입니다. names=['group_A', 'group_B', 'g...
seaborn Seaborn은 matplotlib를 기반으로한 파이썬 데이터 시각화 라이브러리입니다. 상당히 높은 수준의 시각화 인터페이스를 제공합니다. 간단한 r...
산점도 산점도 그래프는 scatter() 함수를 이용해서 그립니다. 산점도는 x,y축에 해당하는 데이터들의 상관관계를 표시할 때 데이터들이 얼마나 어떻게 흩어져 있는가를...
plot() plot()메소드를 통해 여러개의 그래프를 미리 만들어두고 plt.show()메소드를 사용하면 여러개의 그래프가 한 도면에 그려지는 것을 확인 할 수 있습니...
matplotlib 파이썬으로 분석한 데이터를 시각화 하는데는 matplotlib이라는 라이브러리를 가장 많이 사용합니다. matplotlib은 파이썬에서 2D ...
Pivot Table pivot은 영어로 ‘축을 중심으로 회전하다’ 라는 뜻을 가지고 있습니다. DataFrame에서 pivot_table의 의미는 컬럼과 인덱스를 자유...
apply apply함수는 각 컬럼의 값에 임의로 만든 함수를 적용하고 싶을 때 사용합니다. import numpy as np import pandas as pd fr...
sum sum함수는 숫자데이터에만 적용되는 함수입니다. 해당하는 컬럼의 합을 구해줍니다. import numpy as np import pandas as pd from...
describe describe함수는 데이터에 대한 간단한 통계자료를 내줍니다. 숫자로서 가능한 데이터만 출력합니다. import numpy as np import pan...
unique unique함수는 중복된 것은 걸러버리고 중복되지 않은 값만 출력합니다. import numpy as np import pandas as pd from pan...
groupby 데이터를 그룹화(범주화)하는 일은 통계자료에서 굉장히 빈번합니다. 그룹핑을 시켜서 데이터의 합을 구하거나 평균치를 구하는 일을 합니다. np.random...
Merge 서로 다른 DataFrame을 하나로 합치는 작업중에서 merge는 두개의 DataFrame의 행이 같은 것은 중복처리하는 특징이 있습니다. import n...
Concat 서로 다른 DataFrame을 하나로 합치는 작업입니다. Concat은 단순히 하나의 DataFrame에 다른 DataFrame을 연속적으로 붙이는 방법입니...
DataFrame 정렬하기 DataFrame을 정렬할 때는 sort_values()와 sort_index()함수를 이용합니다. import numpy as np impor...
Pandas의 결측치 Pandas에서는 null값을 missing data 혹은 missing이라고 부릅니다. missing과 null은 번갈아가며 쓸 수 있지만 pan...
DataFrame column 삭제하기 import numpy as np import pandas as pd from pandas import Series, DataFr...
DataFrame indexing import numpy as np import pandas as pd from pandas import DataFrame, Series...
DataFrame Slicing 함수를 사용하지 않고 0데이터 프레임을 Slicing하는 방법에는 자릿 수를 이용하는 방법과 라벨로 조회하는 방법이 있습니다. 자릿 수로...
Column명 변경 import numpy as np import pandas as pd from pandas import DataFrame, Series df3 = ...
tail tail()함수는 인자값을 주지 않으면 제일 끝에서 5개의 행을 보여줍니다. 인자값을 원하는 숫자로 주면 해당 숫자만큼 의 행을 데이터의 뒤에서부터 잘라서 보여줍니...
DataFrame 구조 확인 생성된 DataFrame의 기본적인 구조를 파악하는 메소드는 index, values, columns, dtype이 있습니다. index ...
DataFrame DataFrame은 Pandas라이브러리에서 제공하는 2차원 배열형식의 자료구조입니다. 표같은 스프레드시트 구조와 비슷합니다. 여러개의 컬럼을 가지고 ...
Pandas의 결측치 Pandas에서는 null값을 missing data 혹은 missing이라고 부릅니다. missing과 null은 번갈아가며 쓸 수 있지만 pan...
Series 연산 import numpy as np import pandas as pd from pandas import Series, DataFrame import m...
Series값 조회하기 Series의 값을 조회할 때는 인덱스로 조회하는 방법, 라벨로 조회하는 방법 두 가지가 있습니다. import numpy as np impor...
Series Series는 인덱스를 명시적으로 지정하지 않으면 자동으로 0~N-1까지의 정수를 지정합니다. 시리즈는 결론적으로 말하자면 Numpy Array이기 때문에 ...
Pandas Pandas는 Panel Datas의 약자로 파이썬을 이용한 데이터 분석에서 가장 많이 사용되는 라이브러리입니다. Numpy를 기반으로 만들어졌으며 데이...
Numpy Array statistics function Numpy에서 자주 쓰이는 통계함수 몇개를 알아보겠습니다. import numpy as np arr4 = n...
1 Dimension에서 Indexing과 Slicing 인덱스가 0부터 length-1까지 있고, 뒤에서부터 접근할 때는 -를 붙여준다. :를 기준으로 Slicing을...
Numpy Randome Module Numpy의 random모듈(서브패키지)에는 난수를 생성하는 다양한 함수들이 존재합니다. 그 중에서 가장 많이 사용되는 3가지를 정...
Numpy basic function import numpy as np arr1 = np.array([[1.0,2,3],[4,5,6]], dtype=np.int32...
Numpy Array Initialization Numpy Array를 초기화하는 방법은 array()함수를 쓰는 것 외에도 여러가지가 있습니다. zeros(value...
Numpy Array vs List numpy array는 array()를 사용합니다. 리스트는 list()를 사용합니다. import numpy as np myLi...
Numpy Numpy(Numeric Python)은 수학 분야와 관련된 통계작업시 사용하는 파이썬의 가장 기본이 되는 라이브러리입니다. 과학계산 컴퓨팅 작업과 데이...
Anaconda Individual Edition 기준으로 소개합니다. Anaconda는 Python/R 데이터 과학과 Machine Learning을 단일머신에서...