본문 바로가기

분류 전체보기165

[1편] 데이터 프레임 살펴보기: head, tail, columns, values, shape, info, dtypes, describe, value_counts, unique 안녕하세요. 모두의 케빈입니다. 오늘은 불러온 데이터 프레임을 살펴보는 방법에 대해 배워보도록 하겠습니다. ■ 데이터 프레임의 정보 확인을 위한 여러 가지 방법들 Pandas로 불러온 데이터 프레임을 불러와보겠습니다. 데이터는 Kaggle의 학생들 성적 파일(exams)을 활용했습니다. import pandas as pd raw_data = pd.read_csv("exams.csv") df = raw_data.iloc[:,[0,1,5,6,7]] df.columns = ['성별','그룹','수학','국어','영어'] # 데이터 프레임의 컬럼명 재설정 df 데이터를 불러왔지만, 우리는 저 데이터가 도대체 어떻게 생겨먹었는지 알 수 없습니다. 직관적으로 전체 1,000개의 데이터가 있고 5개의 열로 구성되어 .. 2022. 11. 10.
DataFrame 병합하기: concat, merge, join 안녕하세요. 모두의 케빈입니다. 오늘은 Data Frame을 병합하는 방법에 대해 알아보도록 하겠습니다. ■ Data Frame 병합 Pandas를 다루다 보면, 데이터 프레임을 합쳐야 하는 경우가 종종 생깁니다. Data Frame을 합치는 방법에는 크게 3가지가 있습니다. concat, merge, join이 그것인데요. 병합의 메커니즘이 조금씩 다르기 때문에 방법을 정확히 알고 상황에 맞게 사용하시면 됩니다. 자, 그러면 실습을 진행해볼까요? Data 준비: kaggle "exams.csv" 실습에 사용하는 Data는 Kaggle에서 학생들의 시험 성적에 관한 파일을 사용했습니다. 실습을 위해 일부의 데이터만 사용하고, 조금 가공해보도록 하겠습니다. import pandas as pd raw_dat.. 2022. 11. 9.
Data Frame의 행, 열 선택하기: iloc과 loc의 차이점 안녕하세요. 모두의 케빈입니다. 오늘은 Dafa Frame의 행, 열을 선택하는 방법 중 대표적인 loc과 iloc에 대해 알아보도록 하겠습니다. ■ iloc과 loc이란? 정의와 차이점 순서 기반 접근 vs 명시된 이름으로 접근 pandas 공식 페이지에 의하면, iloc은 정수 "위치" 기반 인덱싱이라고 나와있습니다. iloc은 integer location의 약자로, 행과 열의 위치, 즉 순서 정보로 data frame에 접근합니다. 반면 loc은 "레이블" 등으로 행과 열에 접근한다고 나와있습니다. 행과 열의 "이름"으로 접근한다고 접근한다고 생각하시면 편합니다. 위 테이블을 예시로 설명드리겠습니다. iloc은 순서 기반 인덱싱이라고 했습니다. 따라서 "두 번째 행, 세 번째 열의 정보를 가져와줘.. 2022. 11. 7.