[Python 기초] 데이터 프레임 중복값 제거: drop_duplicate 예제와 사용법
안녕하세요. 모두의 케빈입니다. 오늘은 데이터 프레임에서 중복된 값을 제거하는 drop_duplicate() 메소드에 대해 알아보겠습니다. 글쓴이의 경험: 언제 사용하는가? 파이썬을 현업에서 사용하면, 종종 엑셀의 VLOOKUP과 같은 기능이 필요한 경우가 있습니다. 다양한 방법이 있겠지만, 저 같은 경우에는 index 설정과 loc을 자주 활용합니다. import pandas as pd df1 = pd.DataFrame({"사번":[1111,2222,3333,4444], "이름":["홍길동","김철수","박영수","이영자"]}) df2 = pd.DataFrame({"사번":[1111,2222,2222,3333,4444], "집계대상":["집계대상","집계대상","집계대상","제외대상","제외대상"], ..
2022. 11. 21.
데이터 프레임 수정의 모든 것: 행, 열, Cell 값 추가/변경/제거
안녕하세요. 모두의 케빈입니다. 오늘은 데이터 프레임을 수정하는 방법에 대해 배워보고자 합니다. ■ 데이터 프레임의 수정 일을 하다 보면, 호출한 데이터 프레임을 파이썬 환경 내에서 변경해야 하는 경우가 종종 생깁니다. 열의 이름, Index, 특정 Cell의 값 등을 변경하거나 제거할 수도 있고 함수를 적용하여 새로운 열을 추가하거나 제거할 수 있습니다. 지금부터 이런 경우에 대해 하나씩 실습해보고자 합니다. 실습을 위한 데이터 프레임 생성 # 실습을 위한 데이터 프레임 만들기 # 성별, 거주지, 국어점수, 수학점수, 영어점수로 이루어진 (100,5) 데이터 프레임 import random import pandas as pd gender_list = [] city_list = [] math_score ..
2022. 11. 14.
[1편] 데이터 프레임 살펴보기: head, tail, columns, values, shape, info, dtypes, describe, value_counts, unique
안녕하세요. 모두의 케빈입니다. 오늘은 불러온 데이터 프레임을 살펴보는 방법에 대해 배워보도록 하겠습니다. ■ 데이터 프레임의 정보 확인을 위한 여러 가지 방법들 Pandas로 불러온 데이터 프레임을 불러와보겠습니다. 데이터는 Kaggle의 학생들 성적 파일(exams)을 활용했습니다. import pandas as pd raw_data = pd.read_csv("exams.csv") df = raw_data.iloc[:,[0,1,5,6,7]] df.columns = ['성별','그룹','수학','국어','영어'] # 데이터 프레임의 컬럼명 재설정 df 데이터를 불러왔지만, 우리는 저 데이터가 도대체 어떻게 생겨먹었는지 알 수 없습니다. 직관적으로 전체 1,000개의 데이터가 있고 5개의 열로 구성되어 ..
2022. 11. 10.