분류 전체보기(48)
-
군집
군집은 각 데이터의 유사성(거리)을 측정한 후 유사성이 높은 데이터끼리 집단으로 분류데이터 간 유사도 측정 방법 - 유클리드 거리, 맨해튼 거리, 민코프스키 거리, 코사인 유사도 군집의 알고리즘 1. K-평균 군집화(K-Means)알고리즘이 간단하고 큰 데이터에도 쉽게 가능하다.- 학습 과정중심점 선택 : 랜덤하게 초기 중심점을 선택 (k 크기 미리 정하기)K개의 중심점과 각각의 개별 데이터 간의 거리를 측정한 후 가장 가까운 중심점을 기준으로 데이터를 할당하여 클러스터 구성클러스터마다 새로운 중심점 계산. 1~3 과정을 반복.중심점에 변화가 없으면 멈춤- 단점1. 연속형 변수에 가장 최적2. 결과가 초기에 지정한 클러스터 중심의 위치에 따라 달라질 수 있어 반복 필요3. 클러스터의 개수를 지정해야 함4..
2022.11.28 -
탐색 유형 - BFS/DFS
탐색이란? 많은 양의 데이터 중에서 원하는 데이터를 찾는 과정 탐색 유형 문제 푸는 법 - 대표적인 탐색 알고리즘 DFS와 BFS를 이용 DFS와 BFS를 제대로 이해하려면 기존 자료구조인 스택, 큐, 재귀함수를 알아야한다. 그래프는 노드와 간선으로 표현되며 그래프 탐색이란 하나의 노드를 시작으로 다수의 노드를 방문하는 것이다. BFS, 너비 우선 탐색 가까운 노드부터 탐색하는 알고리즘이다. BFS 구현에서는 선입선출 방식인 큐 자료구조를 이용한다.('큐에서 꺼낸 노드'의 인접 노드 중에서 방문하지 않은 노드를 모두 큐에 삽입하고 방문 처리를 하기때문에 큐 자료구조를 이용해야 한다.) 인접한 노드를 반복적으로 큐에 넣도록 알고리즘을 작성하면 먼저 들어온 것이 먼저 나가게 되어, 가까운 노드부터 탐색을 진..
2022.11.28 -
자료구조1(리스트, 스택, 재귀함수)
자료구조란? 데이터를 표현하고 관리하고 처리하기 위한 구조 자료구조의 필요성 데이터를 메모리에 저장하기 위해 여러 자료 구조를 사용한다. 자료구조를 활용해서 응용 프로그램의 성능 향상, 표준화, 가독성, 유지 보수 등의 관점에서 유리하게 데이터를 관리할 수 있다. 시간 복잡도는 내부에서 데이터를 어떻게 저장하여 사용하는가에 따라 달라진다. (시간 복잡도는 데이터 크기가 변경되면 연산 시간이 어떻게 변하는지 보여준다.) 선형자료구조 1. 연속된 자료 구조 - 정적 배열, 동적 배열 2. 연결된 자료 구조 - 연결 리스트 스택 -삽입(Push) 삭제(Pop), 순차 자료구조 변수 top : 스택에 저장된 마지막 원소에 대한 인덱스 저장 공백 상태 : top = -1 (초기값) , 포화 상태 : top = n..
2022.11.28 -
Django MTV
MTV는 각각 모델, 템플릿, 뷰를 의미하며 장고의 모듈과 매핑된다.장고에서는 3개의 모듈을 사용해서 애플리케이션을 개발하기 때문에 장고의 개발 방식은 MTV 패턴 기반이다.템플릿은 자바스크립트의 기능 중 하나인 UI(HTML)에 데이터를 전달해주는 역할을 대신 수행한다. 템플릿이 데이터를 전달해주기도 하며 자바스크립트가 전달해주기도 한다.프런트엔드와 백엔드를 나눠서 분업하는 방식에서는 자바 스크립트 언어가 UI제어와 데이터 전달과 관련된 모든 로직을 전담할 수 있게 발전하면서 MTV 패턴의 템플릿이 해야하는 역할을 자바스크립트가 전부 대체하게 된다. Django에서 렌더링URL 라우팅: 사용자가 특정 URL에 접근하면, Django는 urls.py에서 정의된 패턴과 매칭하여 해당 뷰 함수를 호출뷰 함수..
2022.11.26 -
차원축소(PCA)
많은 경우 머신러닝 문제는 훈련 샘플 각각이 수천~수백만개의 특성을 가지는데 이런 많은 특성은 훈련은 느리게 할 뿐만 아니라, 좋은 솔루션을 찾기 어렵게 만드는데 이런 문제를 차원의 저주라고 한다. 더보기 출처 : 핸즈온 머신러닝 PCA 기법의 핵심은 데이터를 축에 사영했을 때 가장 높은 분산을 가지는 데이터의 축을 찾아 그 축으로 차원을 축소하는 것인데, 이 축을 주성분이라고 말합니다. 높은 분산을 가지는 축을 찾는 이유는 정보의 손실을 최소화하기 위함입니다. 사영했을 때 분산이 크다는 것은 원래 데이터의 분포를 잘 설명할 수 있다는 것을 뜻하고 정보의 손실을 최소화 할 수 있다는 것을 뜻합니다. # 특성공학 기법 중 차원축소(PCA - 주성분 분석) # n개의 관측치와 p개의 변수로 구성된 데이터를 ..
2022.11.24 -
회귀분석(Regression Analysis)
회귀분석(Regression Analysis) 변수 간의 인과관계를 밝히기란 매우 어려운 문제다. 수학적 방법 이외에 다양한 외적 조건도 따져봐야 한다. 회귀분석은 이런 과정 중에 하나에 불과하다. - 특정변수(독립변수)가 다른 변수(종속변수)에 어떤 영향을 미치는가를 분석한다. 즉, 인과관계를 분석한다. - 독립, 종속변수는 등간 또는 비율척도 (연속형 데이터)로 구성되어야 한다. - 독립변수 중에서 종속변수에 영향을 미치는 변수를 규명하고, 이들 변수들에 의해서 회귀방정식을 도출하여 회귀선을 추정한다. Y = Wx + b 회귀분석에서 Weight와 bias의 최적값을 찾는 것(최소제곱법 사용)이 좋은 회귀식을 만들 수 있는 조건이다. - 회귀분석은 시간에 따라 변화하는 데이터나 어떤 영향, 가설적 실..
2022.11.15