[til]처음시작하는 머신러닝 1장
머신러닝 정의
머신러닝이란? 데이터를 이용하여 명시적으로 정의하지 않은 패턴을 컴퓨터로 학습하여 결과를 만들어내는 학문 분야
- 1959, 아서 사무엘(Arthur Lee Samuel)
머신러닝 구성 요소
- Data
- Pattern Recognition
- Computing
머시러닝 관련 학문
- 수학 - 행렬 - 선형대수: 행렬분해 - 확률: 조건부 확률
- 통계학: 데이터에서 패턴을 찾아내는 학문 - 정규 분포, 가우스분포, 상관관계
- 컴퓨터 공학
- 고집적 연산
- 병렬 연산
- 프로그래밍
과거와 현재
- 1950년: 얼런튜닝의 튜링테스트 제안
- 1957년: Percetron 제안
- 1990 - 2010: 통계적 머신러닝
- 2010 ~ : 빅데이터
- 2013 ~ : 딥러닝
- GPU 발전
- 데이터 증가
- 알고리즘 발전
머신러닝 유형
- 머신러닝 유형
- 지도학습
- 비지도학습
- 데이터 자체에 대한 유용한 패턴 인식
- 강화학습
- 에이전트가 환경과 상호작용하여 장기적으로 이득 최대화 학습
지도학습
- 회귀
- 분류
- 추천/랭킹
- 평점을 이용하여 아직 평점이 없는 아이템에 대한 평점을 예상
- 평점이 없는 아이템 중에 높은 평점 목록 제공
비지도학습
- 클러스터링/토픽모델링
- 가정
- 클러스터링: 특성을 벡터화하여 구분
- 토픽모델링: 문서는 토픽이 정해지면, 해당 토픽으로 단어가 선별되고, 그 단어로 문장을 생성
- 결과
- 클러스터링: 클러스터 ID
- 토픽 모델링: 토픽별 확률로 제공
- 가정
- 밀도추정
- 데이터로 부터 원래 분포를 추축
- 타입
- 커널 밀도 추정(Kernel Density Estimation)
- 가우스 혼합 모델(Gaussian mixture model)
- 차원 축소(Dimmensionality reduction)
- 패턴인식 후 사용:
- 시각화에 이용
- 패턴을 찾고, 낮은 차원에서 보존하는 방식
- 분석초기 이용
- 머신러닝 적용 기법를 찾기 위함
- 패턴인식 후 사용:
딥러닝
- 신경망을 쌓아서 문제를 해결하는 기법을 총칭
- 조건
- 데이터 양이 많아야 함
- 문제에 대한 가정을 최소화