SERIES

python pandas

8 Posts·Last updated on October 31, 2020

Pandas 소개

September 26, 2020

Pandas 패키지 소개 Pandas 패키지는 데이터 분석을 할 때 가장 많이 쓰이는 패키지이다. 대부분의 데이터는 시계열(series)이나 표(table)의 형태로 나타낼 수 있는데 Pandas에서는 이러한 표 데이터를 다루기 위한 시리즈(Series) 클래스와 데이터프레임(DataFrame) 클래스를 제공한다. Series Series는 numpy에서…


Pandas 데이터 입출력

September 27, 2020

데이터 입출력 Pandas는 데이터 파일을 읽어 데이터프레임으로 만들 수 있다. 다음처럼 여러 포맷을 지원한다. CSV EXCEL HTML JSON HDFS SAS STATA SQL 이중에서 가장 단순하지만 널리 사용되는 CSV(Comma Separated Values) 포맷 입출력에 대해 살펴보자. %%writefile 명령 샘플 데이터로 사용할 CSV…


Pandas DataFrame 인덱싱

October 01, 2020

DataFrame 인덱싱 DataFrame에서 특정한 데이터만 골라내는 것을 인덱싱(indexing)이라고 한다. Pandas는 numpy행렬과 같이 쉼표를 사용한 형식의 2차원 인덱싱을 지원하기 위해 다음과 같은 특별한 인덱서(indexer) 속성을 제공한다. loc : 라벨값 기반의 2차원 인덱싱 iloc : 순서를 나타내는 정수 기반의 2차원 인덱…


Pandas DataFrame 데이터 조작

October 03, 2020

Pandas는 Numpy의 2차원 배열에서 가능한 대부분의 데이터 처리가 가능하며 추가로 데이터 처리 및 변환을 위한 다양한 함수와 메서드를 제공한다. 데이터 갯수 세기 가장 간단한 데이터 분석은 데이터의 갯수를 세는 것이나. 메서드를 사용하는데, 주의할 점은 NaN값은 세지 않는다는 것이다. 데이터프레임에서는 각 열마다 별도로 데이터 갯수를 센다. 데…


DataFrame 인덱스 조작

October 06, 2020

DataFrame 인덱스 설정 및 제거 DataFrame에 인덱스로 들어가 있어야 할 데이터가 일반 데이터 열에 들어가 있거나 반대로 일반 데이터 열이어야 할 것이 인덱스로 되어 있을 수 있다. 이 때는 명령이나 명령으로 인덱스와 일반 데이터 열을 교환할 수 있다. set_index : 기존의 행 인덱스를 제거하고 데이터 열 중 하나를 인덱스로 설정 …


DataFrame 합성

October 09, 2020

Pandas는 두 개 이상의 DataFrame을 하나로 합치는 데이터 병합(merge)이나 연결(concatenate)을 지원한다. 함수를 사용한 DataFrame 병합 함수는 두 데이터프레임의 공통 열 혹은 인덱스를 기준으로 두 개의 테이블을 합친다. 이 때 기준이 되는 열, 행의 데이터를 키(Key)라고 한다. 함수로 위의 두 데이터프레임 df1…


DataFrame 피봇과 그룹

October 18, 2020

피봇테이블 피봇테이블(pivot table)이란 데이터 열 중에서 두개의 열을 각각 행 인덱스, 열 인덱스로 사용하여 데이터를 조회하여 펼쳐놓은 것을 말한다. Pandas는 피봇테이블을 만들기 위한 매서드를 제공한다. 첫번째 인수로는 행 인덱스로 사용할 열 이름, 두뻔째 인수로는 열 인덱스로 사용할 열 이름, 그리고 마지막으로 데이터로 사용할 열 이름을…


DataFrame 시계열 자료 다루기

October 31, 2020

DatetimeIndex 인덱스 시계열 자료는 인덱스가 날짜 혹은 시간인 데이터를 말한다. Pandas에서 시계열 자료를 생성하려면 인덱스를 자료형으로 만들어야 한다. 는 특정한 순간에 기록된 타임스탬프(timestamp) 형식의 시계열 자료를 다루기 위한 인덱스이다. 타임스탬프 인덱스의 라벨값이 반드시 일정한 간격일 필요는 없다. 인덱스는 다음과 같…