AI/기계학습(6)
-
교차검증(Cross-Validation)
- 교차검증이란? 데이터를 여러 번 나누고, 매번 서로 다른 부분 집합을 사용하여 모델을 반복적으로 훈련하고 나머지 데이터를 사용하여 모델을 테스트합니다. 훈련데이터가 많지 않을 때 모델이 훈련 데이터에 과적합(overfitting)되는 것을 방지하고, 일반화 성능을 측정하는데 유용합니다. - 교차검증을 수행하는 함수 1. cross_val_score k-fold 교차검증을 사용하고, k는 분석가 지정할 수 있다. 이 함수는 모델, 입력 데이터, 타겟 레이블과 함께 교차 검증 방법(예: KFold, StratifiedKFold)을 인자로 받아, 각 폴드에 대한 성능 점수를 반환다. 클래스의 불균형 상관없이 알아서 잘 확인하고 편하게 사용할 수 있다. cross_val_score 주요 매개변수, cross..
2024.03.21 -
K-최근접 이웃, K-Nearest Neighbors (K-NN)
지도 학습의 알고리즘 : K-최근접 이웃(K-nearest neighbor) K-최근접 이웃(K-nearest neighbor)? 새로운 입력을 받았을 때 기존 클러스터에서 모든 데이터와 인스턴스(데이터와 데이터 사이 거리) 기반 거리를 측정한 후 가장 많은 속성을 가진 클러스터에 할당하는 분류 알고리즘훈련 데이터를 충분히 확보할 수 있는 환경에서 사용 KNN 알고리즘(Knn 회귀, 분류, 이상치 탐지 등) KNN 알고리즘의 파라미터 - n_neighbors : 이웃 수, k의 값, default는 5- weights: 이웃의 가중치 결정방법디폴트 'uniform' 동일한 가중치'distance' 거리의 반비례 가중치'callable' 사용자가 직접 정의한 함수를 사용할 수도 있다. 거리가 저장된 ..
2023.01.05 -
군집
군집은 각 데이터의 유사성(거리)을 측정한 후 유사성이 높은 데이터끼리 집단으로 분류데이터 간 유사도 측정 방법 - 유클리드 거리, 맨해튼 거리, 민코프스키 거리, 코사인 유사도 군집의 알고리즘 1. K-평균 군집화(K-Means)알고리즘이 간단하고 큰 데이터에도 쉽게 가능하다.- 학습 과정중심점 선택 : 랜덤하게 초기 중심점을 선택 (k 크기 미리 정하기)K개의 중심점과 각각의 개별 데이터 간의 거리를 측정한 후 가장 가까운 중심점을 기준으로 데이터를 할당하여 클러스터 구성클러스터마다 새로운 중심점 계산. 1~3 과정을 반복.중심점에 변화가 없으면 멈춤- 단점1. 연속형 변수에 가장 최적2. 결과가 초기에 지정한 클러스터 중심의 위치에 따라 달라질 수 있어 반복 필요3. 클러스터의 개수를 지정해야 함4..
2022.11.28 -
차원축소(PCA)
많은 경우 머신러닝 문제는 훈련 샘플 각각이 수천~수백만개의 특성을 가지는데 이런 많은 특성은 훈련은 느리게 할 뿐만 아니라, 좋은 솔루션을 찾기 어렵게 만드는데 이런 문제를 차원의 저주라고 한다. 더보기 출처 : 핸즈온 머신러닝 PCA 기법의 핵심은 데이터를 축에 사영했을 때 가장 높은 분산을 가지는 데이터의 축을 찾아 그 축으로 차원을 축소하는 것인데, 이 축을 주성분이라고 말합니다. 높은 분산을 가지는 축을 찾는 이유는 정보의 손실을 최소화하기 위함입니다. 사영했을 때 분산이 크다는 것은 원래 데이터의 분포를 잘 설명할 수 있다는 것을 뜻하고 정보의 손실을 최소화 할 수 있다는 것을 뜻합니다. # 특성공학 기법 중 차원축소(PCA - 주성분 분석) # n개의 관측치와 p개의 변수로 구성된 데이터를 ..
2022.11.24 -
회귀분석(Regression Analysis)
회귀분석(Regression Analysis) 변수 간의 인과관계를 밝히기란 매우 어려운 문제다. 수학적 방법 이외에 다양한 외적 조건도 따져봐야 한다. 회귀분석은 이런 과정 중에 하나에 불과하다. - 특정변수(독립변수)가 다른 변수(종속변수)에 어떤 영향을 미치는가를 분석한다. 즉, 인과관계를 분석한다. - 독립, 종속변수는 등간 또는 비율척도 (연속형 데이터)로 구성되어야 한다. - 독립변수 중에서 종속변수에 영향을 미치는 변수를 규명하고, 이들 변수들에 의해서 회귀방정식을 도출하여 회귀선을 추정한다. Y = Wx + b 회귀분석에서 Weight와 bias의 최적값을 찾는 것(최소제곱법 사용)이 좋은 회귀식을 만들 수 있는 조건이다. - 회귀분석은 시간에 따라 변화하는 데이터나 어떤 영향, 가설적 실..
2022.11.15 -
Machine Learning1 - 정의와 종류
전통적인 프로그래밍 방법론 : rule base 머신 러닝 : training base, data base Machine Learning 컴퓨터 스스로 대용량 데이터에서 지식이나 패턴을 찾아 학습하고 예측한다. 예를 들어, 검색어 자동 완성, 악성코드 감지, 자료 인식 등의 예측을 필요로 하는 분야에서 사용될 수 있다.머신 러닝은 딥러닝과 달리 데이터의 특징을 스스로 추출하지 못한다. 머신 러닝에서 컴퓨터가 입력받은 데이터를 분석하여 일정한 패턴이나 규칙을 찾아내려면 사람이 인지하는 데이터를 컴퓨터가 인지할 수 있는 데이터로 변환해 주어야 한다.데이터 특성을 인간이 추출(feature extraction)해야 하는 것이 머신 러닝이다.더보기특성 추출 : 데이터별로 어떤 특징을 가지고 있는지 찾아내고, 그..
2022.11.10