본문 바로가기

전체 글165

[Python 기초] 데이터 프레임 중복값 제거: drop_duplicate 예제와 사용법 안녕하세요. 모두의 케빈입니다. 오늘은 데이터 프레임에서 중복된 값을 제거하는 drop_duplicate() 메소드에 대해 알아보겠습니다. 글쓴이의 경험: 언제 사용하는가? 파이썬을 현업에서 사용하면, 종종 엑셀의 VLOOKUP과 같은 기능이 필요한 경우가 있습니다. 다양한 방법이 있겠지만, 저 같은 경우에는 index 설정과 loc을 자주 활용합니다. import pandas as pd df1 = pd.DataFrame({"사번":[1111,2222,3333,4444], "이름":["홍길동","김철수","박영수","이영자"]}) df2 = pd.DataFrame({"사번":[1111,2222,2222,3333,4444], "집계대상":["집계대상","집계대상","집계대상","제외대상","제외대상"], .. 2022. 11. 21.
데이터 프레임 수정의 모든 것: 행, 열, Cell 값 추가/변경/제거 안녕하세요. 모두의 케빈입니다. 오늘은 데이터 프레임을 수정하는 방법에 대해 배워보고자 합니다. ■ 데이터 프레임의 수정 일을 하다 보면, 호출한 데이터 프레임을 파이썬 환경 내에서 변경해야 하는 경우가 종종 생깁니다. 열의 이름, Index, 특정 Cell의 값 등을 변경하거나 제거할 수도 있고 함수를 적용하여 새로운 열을 추가하거나 제거할 수 있습니다. 지금부터 이런 경우에 대해 하나씩 실습해보고자 합니다. 실습을 위한 데이터 프레임 생성 # 실습을 위한 데이터 프레임 만들기 # 성별, 거주지, 국어점수, 수학점수, 영어점수로 이루어진 (100,5) 데이터 프레임 import random import pandas as pd gender_list = [] city_list = [] math_score .. 2022. 11. 14.
[2편] 데이터 프레임 살펴보기: Null 값의 처리와 제어 안녕하세요. 모두의 케빈입니다. 오늘은 데이터 프레임의 Null 값을 확인하고 이를 처리하는 방법에 대해 실습해보도록 하겠습니다. ■ 데이터 프레임의 Null 값 확인하기 실습을 위해 데이터 프레임을 불러오겠습니다. 데이터는 Kaggle에서 학생들의 점수(exams.csv) 파일을 사용했습니다. import pandas as pd raw_data = pd.read_csv("exams.csv") df = raw_data.iloc[:,[0,1,5,6,7]].head(100) # 100개의 데이터만 사용 df.columns = ['성별','그룹','수학','국어','영어'] # 데이터 프레임의 컬럼명 재설정 df 호출한 데이터 프레임에 Null 값이 있는지 확인해보겠습니다. info() : 데이터 프레임의 N.. 2022. 11. 13.
[1편] 데이터 프레임 살펴보기: head, tail, columns, values, shape, info, dtypes, describe, value_counts, unique 안녕하세요. 모두의 케빈입니다. 오늘은 불러온 데이터 프레임을 살펴보는 방법에 대해 배워보도록 하겠습니다. ■ 데이터 프레임의 정보 확인을 위한 여러 가지 방법들 Pandas로 불러온 데이터 프레임을 불러와보겠습니다. 데이터는 Kaggle의 학생들 성적 파일(exams)을 활용했습니다. import pandas as pd raw_data = pd.read_csv("exams.csv") df = raw_data.iloc[:,[0,1,5,6,7]] df.columns = ['성별','그룹','수학','국어','영어'] # 데이터 프레임의 컬럼명 재설정 df 데이터를 불러왔지만, 우리는 저 데이터가 도대체 어떻게 생겨먹었는지 알 수 없습니다. 직관적으로 전체 1,000개의 데이터가 있고 5개의 열로 구성되어 .. 2022. 11. 10.
DataFrame 병합하기: concat, merge, join 안녕하세요. 모두의 케빈입니다. 오늘은 Data Frame을 병합하는 방법에 대해 알아보도록 하겠습니다. ■ Data Frame 병합 Pandas를 다루다 보면, 데이터 프레임을 합쳐야 하는 경우가 종종 생깁니다. Data Frame을 합치는 방법에는 크게 3가지가 있습니다. concat, merge, join이 그것인데요. 병합의 메커니즘이 조금씩 다르기 때문에 방법을 정확히 알고 상황에 맞게 사용하시면 됩니다. 자, 그러면 실습을 진행해볼까요? Data 준비: kaggle "exams.csv" 실습에 사용하는 Data는 Kaggle에서 학생들의 시험 성적에 관한 파일을 사용했습니다. 실습을 위해 일부의 데이터만 사용하고, 조금 가공해보도록 하겠습니다. import pandas as pd raw_dat.. 2022. 11. 9.
Data Frame의 행, 열 선택하기: iloc과 loc의 차이점 안녕하세요. 모두의 케빈입니다. 오늘은 Dafa Frame의 행, 열을 선택하는 방법 중 대표적인 loc과 iloc에 대해 알아보도록 하겠습니다. ■ iloc과 loc이란? 정의와 차이점 순서 기반 접근 vs 명시된 이름으로 접근 pandas 공식 페이지에 의하면, iloc은 정수 "위치" 기반 인덱싱이라고 나와있습니다. iloc은 integer location의 약자로, 행과 열의 위치, 즉 순서 정보로 data frame에 접근합니다. 반면 loc은 "레이블" 등으로 행과 열에 접근한다고 나와있습니다. 행과 열의 "이름"으로 접근한다고 접근한다고 생각하시면 편합니다. 위 테이블을 예시로 설명드리겠습니다. iloc은 순서 기반 인덱싱이라고 했습니다. 따라서 "두 번째 행, 세 번째 열의 정보를 가져와줘.. 2022. 11. 7.