MLY:13. 첫 시스템 빨리 구축하라. 그 다음 반복하라.



이메일 스팸 방지 시스템을 개발하는 가정해 보겠습니다. 개발팀은 다음과 같은 몇 가지 아이디어를 갖고 있습니다.

  • 스팸 메일의 거대한 학습 데이터셋을 수집한다. 예를 들어서 허니팟(honeypot)1을 구성한다. 허위 이메일 주소를 의도적으로 스팸 발송자에게 보낸다. 그리고 이 이메일로 스펨 발송자가 보내는 메시지를 수집한다.
  • 이메일 형식과 헤드 특성을 이해하기 위해서 여러 특성을 개발하여 메시지를 통해서 어떤 인터넷 서버 집합인지를 구분한다.
  • 기타 등등

스팸 방지에 대해 큰 노력을 기울 였음에도, 이런 방향 중 하나를 선택하는 것은 여전히 어렵습니다. 특히 응용 애플리케이션 분야의 전문가가 아니라면 더 힘들 것 입니다.

따라서 완벽한 시스템을 설계하고 구축하겠다는 마음으로 시작하지 마십시오. 그 대신에, 며칠 안에 기본 시스템을 빠르게 구축하고 학습을 시작하십시오.2 이렇게 만든 기본 시스템이 최상의 시스템과 차이가 너무 난다고 하더라도, 이 시스템을 이용하여 기본 시스템이 어떻게 동작하는지 검토하는 것이 중요합니다. 이런 과정을 통해서 시간을 어디에 투자하는 것이 가장 중요한지에 대한 단서를 신속하게 찾을 수 있을 것입니다. 다음 장에서는 이러한 단서를 찾는 방법을 소개할 것입니다.

이 문서는 Andrew NG 교수님께서 집필 중인 Machine Learning Yearning의 13장 번역입니다. 원제는 “13 Build your first system quickly, then iterate” 입니다. 원문 Ebook은 http://www.mlyearning.org 에서 구독할 수 있습니다.


  1. 역자주 - Honeypot은 비정상적은 접근을 탐지하려고 일부러 설치해 둔 시스템을 의미하는 보안 관련 용어입니다. 본문에서는 스팸 발송자가 발송하는 실제 스펨 메일을 수집하는 가짜 이메일을 만들어 데이터 수집기로 사용한다는 의미로 사용되었습니다. [return]
  2. 초기 버전을 며칠 안에 구축하는 가이드는 학문적인 논문을 준비하는 분들보다는 AI 애플리케이션을 구축하는 분들에게 전하는 가이드입니다. 연구와 관련된 주제는 다음에 별도로 다루겠습니다. [return]
김태완 avatar
작성자: 김태완
1999년 부터 Java, Framework, Middleware, SOA, DB Replication, Cache, CEP, NoSQL, Big Data, Cloud를 키워드로 살아왔습니다. 현재는 빅데이터와 Machine Learning을 중점에 두고 있습니다.
E-mail: taewanme@gmail.com