[Handson_ML]ch05: SVM

SVM

  • 적용 분야: 선형 분류, 비선형 분류, 회귀, 이상치 탐색
  • 적용 데이터: 중/소 규모 데이터에 적합
  • 복잡한 데이터를 잘 풀이

  • 용어

    • Large Margin Classification: 라지 마진 분류
    • Support Vector: 도로 경계에 위치한 데이터
  • SVM은 도로 경계를 나누는 모델

    • 데이터의 Scale에 민감하게 만응
    • 정규화를 선행해야 함
    • 레이블을 반환, 확률을 반환하지 않음
  • SVM의 유형

    • Hard Margin 분류: 하드 마진 분류
      • 선형 분류가 가능해야 함
      • 이상치에 만김함
      • 일반화 성능 떨어짐
    • Soft Margin 분류: 소프트 마진 분류
      • 마진 오류(Margin Violation)과 Margin의 균형 감
      • sklearn에서는 C 파라미터로 균형정도 설정
        • $C=\frac{1}{\lamba}$

선형 SVM

  • sklearn 클래스
    • LinearSVC(C=1, loss=‘hinge’)
    • SVC(kernel=“linear”, C=1)
      • 데이터 셋이 커지면 속도가 느림
    • SGCClassfier(loss=hinge, alpha=1/(m*c))
      • 경사 하강법 사용
      • 속도는 LinearSVC보다 느리지만 대용량 데이터에 대하여 효과적으로 대응

비선형 SVM

김태완 avatar
작성자: 김태완
1999년 부터 Java, Framework, Middleware, SOA, DB Replication, Cache, CEP, NoSQL, Big Data, Cloud를 키워드로 살아왔습니다. 현재는 빅데이터와 Machine Learning을 중점에 두고 있습니다.
E-mail: taewanme@gmail.com