ML&DL
-
[dacon] 와인품질 EDA 및 1차 모델 개발ML&DL 2021. 6. 14. 15:35
https://dacon.io/competitions/open/235610/overview/description [화학] 와인 품질 분류 출처 : DACON - Data Science Competition dacon.io 위 데이터를 활용했고, 기존에 작성했던 EDA글을 토대로 진행했다. 여기서 예측해야 하는 Y는 quality이며, 나머지는 feature로 사용해야 한다. 전체 컬럼의 null값은 없고, type만 object 타입인 것을 확인할 수 있다. red, white 계열의 type만 존재하므로 df['type'] = df['type'].replace(['red', 'white'], [0, 1]) 인코딩을 진행했다. 여기선 생략됐지만, 각 컬럼별로 분포가 다르다. scaling을 진행해야 한다..
-
roc curveML&DL 2021. 5. 6. 16:45
ROC curve 아래의 면적(AUC, area under curve)이 넓을수록 좋은 진단 방법 주로 binary classification에서 많이 쓰임 ROC curve(Receiver-Operating Characteristic curve)의 줄임말로, 특정 진단 방법의 민감도와 특이도가 어떤 관계를 갖고 있는지를 표현한 그래프 ex. 바이오 혈압이 N 이상이면 심근경색이다 라고 했을 때, "혈압이 5이상이면 심근경색이다"라면 환자율 100퍼센트이고, 모두를 환자라고 인식하기 때문에 특이도가 0 반대로 "혈압이 1000이상이면 심근경색이다"라면 정상이 100%가 되므로 특이도가 1이 되지만 환자는 하나도 골라내지못하기 때문에 민감도가 0이 됨 상위 예제와 같이 민감도, 특이도의 균형이 알맞아야 최..
-
bagging Emsemble, semi-supervisedML&DL 2021. 3. 11. 15:01
단일 모델로는 성능을 높이기는 많은 시간과 노력이 필요함 쉽게 올릴 수 있는 방법은 emsemble 기법을 사용 bagging emsemble : 동일한 데이터와 동일한 딥러닝 모델을 서로 다른 random_seed를 기반으로 학습을 수행하여, 미세하게 다른 결과를 얻어냄. 이는 소량의 데이터를 배치 형태로 학습하는 딥러닝 모델들의 특징을 이용한 것으로, 배치로 들어오는 데이터의 순서를 random_seed로 바꿔, 모델의 학습 과정에 변화를 주는 방법 Semi-supervised 준지도 학습은 지도학습과 비지도학습을 합친 방법 기존 학습데이터 x, 라벨 y를 통해 학습시킨 모델이 있다고 하자. 레이블이 존재하는 데이터 (x, y)를 기반으로 모델 M을 학습 시킨 후에, 레이블이 없는 변수 z의 레이블 ..
-
[Data Cleansing] scaling과 normalization의 차이ML&DL 2021. 2. 26. 16:37
Scaling vs. Normalization: What's the difference? One of the reasons that it's easy to get confused between scaling and normalization is because the terms are sometimes used interchangeably and, to make it even more confusing, they are very similar! In both cases, you're transforming the values of numeric variables so that the transformed data points have specific helpful properties. The differe..
-
[Kaggle] santander product recomendation EDAML&DL 2021. 2. 19. 17:42
* Kaggle 우승작으로 배우는 머신러닝 탐구생활 정리 목표 : 고객별 신규 금융 상품 구매 찾기 캐글 santander-product-recomendation 데이터 사용 trn = pd.read_csv(''../input/santander-product-recomendation/train_ver2.csv') 사용 1. data length, dtypes 확인 trn.info RangeIndex: 13647309 entries, 0 to 13647308 Data columns (total 48 columns): # Column Dtype --- ------ ----- 0 fecha_dato object 1 ncodpers int64 2 ind_empleado object 3 pais_residenci..
-
데이터 분석시 해야 할 작업ML&DL 2020. 4. 20. 14:31
데이터 확인 df.info() 컬럼별 데이터 자료형 확인 결측치 확인 df.isna().sum() 결측값이 몇개인지 더해서 보여줌 결측치 처리(삭제 & 보간) 1. 삭제 1) Listwise(목록) 방식으로 삭제 : 결측치가 한개라도 존재하는 전체 행 삭제 df.dropna(axis = 0, inplace=True) 행 기준 삭제이며 열 기준 삭제시 axis = 1로 2) Pairwise(단일) 방식으로 삭제 df.dropna(how = 'all', inplace = True) 행 전체가 NaN값인 경우 삭제됨 df.dropna(thresh=2, inplace = True) 각 행의 결측치가 2개(threshold 설정값) 이상이 되는 행 삭제 df.dropna(subset=['Second Score']..