13. 첫 시스템 신속한 구축, 그리고 반복
이메일 스팸 방지 시스템을 개발하는 가정해 보겠습니다. 개발팀은 다음과 같은 몇 가지 아이디어를 갖고 있습니다.
- 스팸 메일의 거대한 학습 데이터셋을 수집한다. 예를 들어서 허니팟(honeypot)1을 구성한다. 허위 이메일 주소를 의도적으로 스팸 발송자에게 보낸다. 그리고 이 이메일로 스팸 발송자가 보내는 메시지를 수집.
- 이메일의 텍스트 내용을 이해하기 위한 피처 개발.
- 이메일 메시지가 어떤 인터넷 서버들을 거치는지를 보여주기 위해서는 이메일 봉투/헤더 피처(특정)를 이해해야 합니다. 이러한 특성을 이해하기 위한 피처 개발.
- 기타 등등
필자는 스팸 방지에 대해 꽤 오랫동안 작업을 해왔음에도, 이런 여러 주제 중에서 하나를 선택하는 것은 여전히 어렵습니다. 여러분들이 스팸 방지 응용 애플리케이션 분야의 전문가가 아니라면 더 힘들 것입니다.
이러한 이유로 완벽한 시스템을 설계하고 구축하겠다는 마음으로 시작하지 않는 것이 좋습니다. 그 대신에 수일 안에 기본 시스템을 빠르게 구축하고 학습을 시작하십시오.2 이렇게 만든 기본 시스템이 최상의 시스템과 차이가 너무 난다고 하더라도, 이 시스템을 이용하여 기본 시스템이 어떻게 동작하는지 검토하는 것이 중요합니다. 이런 과정을 통해서 시간을 투자하기 가장 좋은 유망한 방향에 대한 단서를 신속하게 찾을 수 있을 것입니다. 다음 장에서는 이런 단서를 찾는 방법을 소개할 것입니다.
이 문서는 Andrew NG 교수님께서 집필 중인 Machine Learning Yearning의 13장 번역입니다. 원제는 “13 Build your first system quickly, then iterate” 입니다. 원문 Ebook은 http://www.mlyearning.org [↗NW] 에서 내려받을 수 있습니다.