# AI 이론/Pandas 5

판다스(Pandas) DataFrame의 컬럼 데이터 셋 접근

DataFrame의 컬럼 데이터 세트 생성과 수정은 []연산자를 이용하여 쉽게 가능 새로운 컬럼에 값을 할당하기 위해서는 DataFrame[] 내에 새로운 컬럼명과 값을 할당 시켜주면된다. DataFrame['col1'] = value ●DataFrame 데이터 삭제 axis = 0 일때는 , row 를 삭제( 가로줄 하나삭제) axis = 1 일때는, col 을 삭제(세로줄 즉, Atrribute 삭제) ●drop시, axis와 inplace를 잘 숙지 inplace = False 일 경우, 기존의 DataFrame값은 반영이 되지않는다. 주로, df2 = df1.drop(['co1']), axis, inplace = False) 처럼 사용 *inplace를 쓰지않아도, 디폴트는 False 기때문에 문..

# AI 이론/Pandas 2022.01.07

판다스(Pandas) 정렬, 상호변환

정렬 sort_values() 데이터 값을 오름차순 혹은 내림차순으로 정렬할 수 있는데, 이때 필요한 함수가 sort_values() 이다 ●sort_values(by = '컬럼 명', ascending = True/False) : True/False를 선택 Name,Age,Pclass를 추출후, 데이터를 Pclass,Age에 대해서 오름차순으로 정렬한다. (ascending에 대한 값을 쓰지않으면, 디폴트 값은 오름차순) DataFrame과 List,Dictionary,ndarray 상호변환 List, 1차원 배열 ->DataFrame List,2차원 배열 ->DataFrame Dictionary ->DataFrame DataFrame-> dictionary,List,ndarray 으로 변환 DataF..

# AI 이론/Pandas 2022.01.07

판다스[Pandas] DataFrame Series,Filtering 추출

DataFrame Series 추출 (series 는 앞에서, 1차원 데이터, DataFrame 은 2차원데이터) titanic_df의 Name이라는 col에 해당하는 데이터를 갖고있다. titanic_df[[]] 2차원 배열로 쓸경우는 , 그 컬럼으로 구성하는 DataFrame 반환 titanic의 크기 = titanic.shape()로 알수 있음( 891행 12열) ●info() : DataFrame내의 컬럼명, 데이터 타입 , Non-Null 의 개수, memory usage 표기 ●value_counts() : 동일한 개별 데이터 값이 몇 건있는지 정보를 제공 Series객체에서만 호출 되므로, DataFrame->Series로 변환뒤 호출

# AI 이론/Pandas 2022.01.07

판다스(Pandas) DataFrame 로딩 및 기본 API

DataFrame 로딩 read_csv() ●read_csv() csv 파일을 편리하게 DataFrame으로 로딩 read_csv()의 sep 인자를 콤마(,)가 아닌 다른 분리자로 변경하여 다른 유형의 파일(\t)도 로드 가능 예제는 https://github.com/chulminkw/PerfectGuide 권철민님 깃허브 소스파일을 사용했습니다. 파일명 : titanic_train.csv 이고 ,이 파일은 콤마(,)로 구분되어있다 type : DataFrame 데이터 추출 head() 및 DataFrame() 생성 ●head(읽어올 데이터의 수) : 맨앞에서부터 데이터를 읽어올 데이터의 수 만큼 데이터를 읽어옴 맨왼쪽에 0,1,2,3,4 의경우는 RDBMS에서의 KEY라고 이해하는게 좋을거 같다 실질..

# AI 이론/Pandas 2022.01.07

판다스(Pandas)란?

판다스(Pandas)란? "Pandas 공식 깃허브 설명" 관계형 또는 레이블이 된 데이터로 쉽게 직관적으로 작업할 수 있도록 설계되었고 빠르고 유연한 데이터 구조를 제공하는 파이썬 패키지 ●판다스의 핵심 개체는 DataFrame Data Frame 이란? Data Frame은 여러 개의 행과 열로 이뤄진 2차원 데이터를 담는 구조체 Index,Series를 이해하는것이 중요 index : RDBMS의 PK처럼 개별 데이터를 고유하게 식별하는 KEY값 Series : DataFrame은 2차원 데이터 이지만 ,Series는 컬럼이 하나 뿐인 데이터 구조체 Pandas를 쓰는 이유? 1. 자동적/명시적으로 축의 이름에 따라 데이터를 정렬할 수 있는 데이터 구조 잘못 정렬된 데이터에 의한 오류 방지, 다양한..

# AI 이론/Pandas 2022.01.07
1