AI # 머신러닝 # 딥러닝 #Numpy #pandas # matplolib #인공지능 #데이터 분석 #데이터 시각화 #파이썬 #알고리즘 #백준 4

[ML]캐글 신용카드 사기 검출

데이터 분석전 알아야 할 지식정리 Log변환 왜곡된 분포도를 가진 데이터 세트를 비교적 정규 분포에 가깝게 변환해주는 Feature Engineering 방식 Skrew 된 분포도 대부분을 로그변환으로 바꾸는것을 권장 IQR IQR(Inter Quantile Range)를 통한 Outlier Removal(이상치 제거) Box Flot 을 통해, 범위 밖에있는 값들은 이상치로 간주 UnderSampling And OverSampling UnderSampling : 많은 레이블을 가진 데이터세트를 적은 레이블 세트만큼 감소 시킴 OverSampling : 적은 레이블을 가진 데이터세트를 증식시켜, 많은 레이블 세트만큼 부풀림 (SMOTE방식을 통해 OverSampling을 실시) SMOTE : 적은 데이터..

LightGBM

LightGBM이란 XGBoost와 함께 부스팅 계열 알고리즘에서 가장 각광을 받고 있다. XGboost의 경우 뛰어난 부스팅 알고리즘이지만, 여전히 학습시간이 오래걸리는데, 특히 GridSearchCV로 하이퍼 파라미터 튜닝을 수행하다 보면 수행시간이 너무 오래걸리는것을 알수있다. LightGBM의 큰장점은 XGBoost보다 학습에 걸리는 시간이 훨씬 적다는 점이다. LightGBM은 XGBoost의 예측 성능에 별차이가 없지만, 기능상 다양성은 LGBM이 더많다. LGBM의 단점은 적은 데이터 세트에 적용할 경우 과적합이 발생하기 쉽다는 것 일반적으로 10,000건 이하의 데이터 세트 정도라고 LightGBM 공식문서에 기술되어있다. 기존의 GBM계열의 트리분할은 리프 중심 트리 분할 이였지만, 시간..

XGBoost 소개(파이썬 Wrapper, 싸이킷런 Wrapper) 및 예제

XGBoost 개요 XGBoost는 트리 기반의 앙상블 학습에서 가장 각광받고 있는 알고리즘 중 하나입니다. XGBoost는 GBM에 기반하고 있지만, GBM의 단점인 느린 수행 시간 및 과적합 규제 부재등의 문제를 해결해서 매우 각광을 받고 있다. 파이썬 Wrapper와 싸이킷런 Wrapper에는 약간의 차이가 존재합니다. XGBClassifier는 기존의 사이킷런에서 사용하는 하이퍼 파라미터 몇 가지를 변경하였는데, 변경 사항은 다음과 같습니다. eta -> learning_rate sub_sample ->subsample lambda ->reg_lambda alpha ->reg_alpha 장점 뛰어난 예측 성능 GBM 대비 빠른 수행 시간 과적합 규제 Tree pruning 자체 내장된 교차 검증 ..

투 포인터(Two Pointer)

투포인터 알고리즘이란? 리스트에 순차적으로 접근해야 할때 2개의 점의 위치를 기록하면서 처리하는 알고리즘 예를 들어보면, 한 반에 학생들이 40명이 있을 때, 모든 학생을 번호순서대로 일렬로 세운뒤, 순차적으로 지목한다고 생각해보자 2,3,4,5,6,7번 학생을 부를때, 2번부터 7번까지의 학생 이라고 부를 수도있는데, 이처럼 시작점과 끝점을 사용하여 데이터의 범위를 표현할 수 있다. 시작점(start)과 끝점(end)이 첫번째 원소의 양 끝점을 가르키도록 한다. 현재 부분합이 구하고자 하는 값과 같다면 카운트한다 현재 부분합이 구하고자 하는 값보다 작다면, end를 1증가(구간합이 감소) 현재 부분합이 구하고자 하는 값보다 크다면 start를 1증가(구간합 증가) 모든 경우를 확인할 때까지 2번부터 4..

1