본문 바로가기
내가 공부한 것들

[파이썬] 데이터프레임에서 원하는 열(Column)만 추출하는 방법 2가지

by 2ns 2022. 12. 18.

정말 간단하고 직관적인데, 매번 까먹어서 인터넷으로 검색하게 되더라.

기본 중에 기본이라 이번에 포스팅을 하면서 확실히 기억해두려고 한다 (다시는 이런 걸 검색하지 않도록ㅎ;;)

 

우선 자주 찾아봤던 블로그를 아래 출처로 남긴다.

(본 블로그보다 훨씬 상세한 설명을 해주시므로, 아래 블로그를 참고하는 것도 좋을 것 같다)

참고: https://zephyrus1111.tistory.com/43

 

[Pandas] 4. 필요한 열(Column) 추출하기

안녕하세요~ 꽁냥이에요! 데이터의 크기가 클 경우에는 모든 데이터를 다루기보다 필요한 열(Column)을 추출하여 데이터의 크기를 줄인다면 더 빠르게 데이터 분석을 수행할 수 있을 거예요. 이번

zephyrus1111.tistory.com

 

원하는 열(Column)을 추출하는 방법은 칼럼명을 이용하여 직접 부르는 방법이다.

1. 데이터프레임[['Column 1',Columne 2', Column3', ...]]

 

예시)

먼저 데이터프레임을 만들고,

import pandas as pd
df = pd.DataFrame([[7, "손흥민", "대한민국", "토트넘"], [4, "김민재", "대한민국", "나폴리"], [19, "이강인", "대한민국", "마요르카"], [9,"조규성","대한민국","전북현대"],[10, "이재성", "대한민국", "마인츠"]],columns = ["번호","이름","국가","소속팀"])

데이터프레임

위 데이터에서 이름과 소속팀만 추출하고 싶다.

이름과 소속팀 칼럼명을 입력하여 추출한 모습

'이름', '소속팀' 이라는 칼럼명만 입력하면 끝.

 

위 방법은 상당히 직관적이고, 이해하기 쉽다. 내가 불러 올 열 이름을 입력하기만 하면 되기 때문이다. 

다만, 대괄호를 한번이 아닌 두번을 해야한다. (꼭 주의하자)

 

왜 그런지 궁금하지 않은가? 컬럼 하나만 추출하는데엔 대괄호가 아래와 같이 하나만 있어도 되는데 말이다.

근데, 아래의 결과는 시리즈로서 표기된다. 즉, 데이터프레임이 아니다.

하나의 대괄호로만 입력하여 추출한 모습
위 타입은 시리즈

대괄호를 두번 해야하는 이유는 안쪽의 대괄호가 리스트를 나타내기 때문이다.

즉, 리스트를 활용하여, 리스트 내 칼럼명들을 데이터프레임으로 추출하게 되는 것이다. (아래와 같이)

 

두개의 대괄호로만 입력하여 추출한 모습
위 타입은 데이터프레임

 

이런 사소한 차이를 기억해두자.

하나하나 원리가 있고, 이런 걸 이해하면서 사용한다면, 다른 코드를 사용하더라도 훨씬 수월하게 이해할 수 있을 것이다.