전체 글 40

판다스(Pandas) Index 객체

Index 객체는 1차원 데이터이다 indexs는 1차원 배열로 접근이 가능하여 값을 뽑아서 사용할 수있다. 하지만 index는 값을 수정할 수없는데, 이는 RDBMS에서 PK값을 수정하는것과 비슷한 것같다. ●reset_index() : 기존 인덱스를 'index'라는 새로운 컬럼명으로 추가후, 새로운 인덱스를 생성함 기존의 인덱스[0,1,2]가 하나의 컬럼으로 등장했고, 이에따라 새로운 index가 생성 관련글 1.https://github.com/chulminkw/PerfectGuide 깃허브에 있는 코드를 사용

카테고리 없음 2022.01.07

판다스(Pandas) DataFrame의 컬럼 데이터 셋 접근

DataFrame의 컬럼 데이터 세트 생성과 수정은 []연산자를 이용하여 쉽게 가능 새로운 컬럼에 값을 할당하기 위해서는 DataFrame[] 내에 새로운 컬럼명과 값을 할당 시켜주면된다. DataFrame['col1'] = value ●DataFrame 데이터 삭제 axis = 0 일때는 , row 를 삭제( 가로줄 하나삭제) axis = 1 일때는, col 을 삭제(세로줄 즉, Atrribute 삭제) ●drop시, axis와 inplace를 잘 숙지 inplace = False 일 경우, 기존의 DataFrame값은 반영이 되지않는다. 주로, df2 = df1.drop(['co1']), axis, inplace = False) 처럼 사용 *inplace를 쓰지않아도, 디폴트는 False 기때문에 문..

# AI 이론/Pandas 2022.01.07

판다스(Pandas) 정렬, 상호변환

정렬 sort_values() 데이터 값을 오름차순 혹은 내림차순으로 정렬할 수 있는데, 이때 필요한 함수가 sort_values() 이다 ●sort_values(by = '컬럼 명', ascending = True/False) : True/False를 선택 Name,Age,Pclass를 추출후, 데이터를 Pclass,Age에 대해서 오름차순으로 정렬한다. (ascending에 대한 값을 쓰지않으면, 디폴트 값은 오름차순) DataFrame과 List,Dictionary,ndarray 상호변환 List, 1차원 배열 ->DataFrame List,2차원 배열 ->DataFrame Dictionary ->DataFrame DataFrame-> dictionary,List,ndarray 으로 변환 DataF..

# AI 이론/Pandas 2022.01.07

판다스[Pandas] DataFrame Series,Filtering 추출

DataFrame Series 추출 (series 는 앞에서, 1차원 데이터, DataFrame 은 2차원데이터) titanic_df의 Name이라는 col에 해당하는 데이터를 갖고있다. titanic_df[[]] 2차원 배열로 쓸경우는 , 그 컬럼으로 구성하는 DataFrame 반환 titanic의 크기 = titanic.shape()로 알수 있음( 891행 12열) ●info() : DataFrame내의 컬럼명, 데이터 타입 , Non-Null 의 개수, memory usage 표기 ●value_counts() : 동일한 개별 데이터 값이 몇 건있는지 정보를 제공 Series객체에서만 호출 되므로, DataFrame->Series로 변환뒤 호출

# AI 이론/Pandas 2022.01.07

판다스(Pandas) DataFrame 로딩 및 기본 API

DataFrame 로딩 read_csv() ●read_csv() csv 파일을 편리하게 DataFrame으로 로딩 read_csv()의 sep 인자를 콤마(,)가 아닌 다른 분리자로 변경하여 다른 유형의 파일(\t)도 로드 가능 예제는 https://github.com/chulminkw/PerfectGuide 권철민님 깃허브 소스파일을 사용했습니다. 파일명 : titanic_train.csv 이고 ,이 파일은 콤마(,)로 구분되어있다 type : DataFrame 데이터 추출 head() 및 DataFrame() 생성 ●head(읽어올 데이터의 수) : 맨앞에서부터 데이터를 읽어올 데이터의 수 만큼 데이터를 읽어옴 맨왼쪽에 0,1,2,3,4 의경우는 RDBMS에서의 KEY라고 이해하는게 좋을거 같다 실질..

# AI 이론/Pandas 2022.01.07

판다스(Pandas)란?

판다스(Pandas)란? "Pandas 공식 깃허브 설명" 관계형 또는 레이블이 된 데이터로 쉽게 직관적으로 작업할 수 있도록 설계되었고 빠르고 유연한 데이터 구조를 제공하는 파이썬 패키지 ●판다스의 핵심 개체는 DataFrame Data Frame 이란? Data Frame은 여러 개의 행과 열로 이뤄진 2차원 데이터를 담는 구조체 Index,Series를 이해하는것이 중요 index : RDBMS의 PK처럼 개별 데이터를 고유하게 식별하는 KEY값 Series : DataFrame은 2차원 데이터 이지만 ,Series는 컬럼이 하나 뿐인 데이터 구조체 Pandas를 쓰는 이유? 1. 자동적/명시적으로 축의 이름에 따라 데이터를 정렬할 수 있는 데이터 구조 잘못 정렬된 데이터에 의한 오류 방지, 다양한..

# AI 이론/Pandas 2022.01.07

[Numpy] N차원 배열 정렬 및 형태 변경

1,2차원 배열의 정렬 ●1차원 배열의 정렬 일반 파이썬의 배열 정렬과 똑같다 ●2차원 배열의 정렬 2차원 배열의 경우를 보면, 3가지로 정렬이 가능하다 axis = None 일때 : 2차원 배열을 1차원 배열로 정렬 axis = 1일때 : 각 x축마다 정렬, (각 열으로 정렬되어있다) axis = 2일때 : 각 y축마다 정렬, (각 행마다 정렬되어있다) ●2차원 배열의 정렬 : argsort() 정렬은 하는데, 배열의 값이 인덱스로 axis = 0일때는 각 열마다 정렬이다. 1열을 보면, [10,5,8] -> [5,8.10]으로 정렬된 상태인데 이때 각각의인덱스의 변화는 [0,1,2] ->[1,2,0]으로 정렬 배열의 차원 변환 및 차원추가,축소 배열의 차원 변환 : resize(), reshape()..

# AI 이론/Numpy 2022.01.06

[Numpy] 배열의 연산 및 벡터 내적

배열의 연산 배열의 연산(add,sub,mul,div,rem) 이와 마찬가지로, sqrt,square 연산이 모두가능하다. 평소 파이썬 방식과 매우 흡사하기 때문에, 이부분은 쉽게 이해가 되었다 백터의 내적 내적의 연산 방식은 [a,b],[c,d] 가 주어졌을때 ,ac+bd 로 연산 a b e f c d g h 위와 같이 2차원 배열이 2개 주어졌을경우 두 내적의 연산 값은 ae+bg af+bh ce+dg cf+dh 로 나타낼수 있다 ▶왜 for문연산으로 하지않고, 벡터연산을 사용하는가? 그 이유는 실행속도의 엄청난 차이 때문이다. ●for문을 사용해서 sum 값을 구할 경우 실행시간이 대략 30초 가량 걸렸는데, 매우 오래걸린 시간이다. ●벡터연산을 사용해서 sum 값을 구할 경우 실행시간이 대략 0...

# AI 이론/Numpy 2022.01.05

[Numpy] 넘파이 배열생성

넘파이란?(배열 생성,난수,인덱싱) 파이썬 외부 라이브러리로, 딥러닝 구현시에, 행렬및 배열연산을 간편하고 빠르게 해주는 라이브러리이다. ● 배열의 생성 array.ndim : 배열의 차원 수를 표시 1차원 : [1,2,3,4..] 2차원 : [[1,2],[3,4]] 3차원 :[[[1,2,3,4]]] array = [1,2,3,4,5,6,7,8] 대신 arange()로 대신 표현이 가능하다. array.arange(start,end,size =(a,b)) 형태로 표현 범위 : [start,end-1] size = (a,b) 는 a 행 b 열로 배열을 생성 의미 「ones(),zeros(),full() 로 배열 채우기」 zeros((n,m),dtype = "배열값 형") 와같이 씀 full((n,m),값)..

# AI 이론/Numpy 2022.01.05

1.머신러닝이란?

머신러닝이란? 영어 그대로 Machine Learning 즉, 기계학습 이다. 현재, 우리생활 주변에서도 머신러닝의 역할을 많이 볼 수있는데, 예로는 이메일 스팸필터링, 편리한 텍스트와 음성 인식 소프트웨어(Siri,빅스비) 등이있다. 머신 러닝의 세 가지 종류 (지도학습,비지도학습 강화학습) 1.지도학습 (분류,회귀) 1) 레이블된 데이터 2) 직접 피드백 3) 출력 및 미래 예측 지도(supervised)는 희망하는 출력신호가 있는 일련의 데이터 입력을 말함 레이블된 훈련 데이터가 머신러닝 알고리즘에 전달되어, 예측모델을 먼저 훈련후, 새로운 레이블 되지 않은 데이터 입력에 대해 예측을 수행함 분류란 지도 학습의 하위 카테고리 과거의 관측을 기반을 샘플의 범주형 클래스 레이블을 예측하는것이 목적 클래..

1 2 3 4