13. 첫 시스템 신속한 구축, 그리고 반복

13. 첫 시스템 신속한 구축, 그리고 반복

이메일 스팸 방지 시스템을 개발하는 가정해 보겠습니다. 개발팀은 다음과 같은 몇 가지 아이디어를 갖고 있습니다.

  • 스팸 메일의 거대한 학습 데이터셋을 수집한다. 예를 들어서 허니팟(honeypot)1을 구성한다. 허위 이메일 주소를 의도적으로 스팸 발송자에게 보낸다. 그리고 이 이메일로 스팸 발송자가 보내는 메시지를 수집.
  • 이메일의 텍스트 내용을 이해하기 위한 피처 개발.
  • 이메일 메시지가 어떤 인터넷 서버들을 거치는지를 보여주기 위해서는 이메일 봉투/헤더 피처(특정)를 이해해야 합니다. 이러한 특성을 이해하기 위한 피처 개발.
  • 기타 등등

필자는 스팸 방지에 대해 꽤 오랫동안 작업을 해왔음에도, 이런 여러 주제 중에서 하나를 선택하는 것은 여전히 어렵습니다. 여러분들이 스팸 방지 응용 애플리케이션 분야의 전문가가 아니라면 더 힘들 것입니다.

이러한 이유로 완벽한 시스템을 설계하고 구축하겠다는 마음으로 시작하지 않는 것이 좋습니다. 그 대신에 수일 안에 기본 시스템을 빠르게 구축하고 학습을 시작하십시오.2 이렇게 만든 기본 시스템이 최상의 시스템과 차이가 너무 난다고 하더라도, 이 시스템을 이용하여 기본 시스템이 어떻게 동작하는지 검토하는 것이 중요합니다. 이런 과정을 통해서 시간을 투자하기 가장 좋은 유망한 방향에 대한 단서를 신속하게 찾을 수 있을 것입니다. 다음 장에서는 이런 단서를 찾는 방법을 소개할 것입니다.

이 문서는 Andrew NG 교수님께서 집필 중인 Machine Learning Yearning의 13장 번역입니다. 원제는 “13 Build your first system quickly, then iterate” 입니다. 원문 Ebook은 http://www.mlyearning.org [↗NW] 에서 내려받을 수 있습니다.


  1. <옮긴이> Honeypot은 비정상적은 접근을 탐지하려고 일부러 설치해 둔 시스템을 의미하는 보안 관련 용어입니다. 본문에서는 스팸 발송자가 발송하는 실제 스팸 메일을 수집하는 가짜 이메일을 만들어 데이터 수집기로 사용한다는 역할을 담당합니다.
    [return]
  2. 초기 버전을 며칠 안에 구축하는 가이드는 논문을 준비하는 AI 연구자보다는 AI 애플리케이션을 구축하는 분들에게 전하는 가이드입니다. 연구와 관련된 주제는 다음에 별도로 다루겠습니다. [return]
Last updated on 26 Dec 2018 / Published on 26 Dec 2018
김태완 avatar
작성자: 김태완
1999년 부터 Java, Framework, Middleware, SOA, DB Replication, Cache, CEP, NoSQL, Big Data, Cloud를 키워드로 살아왔습니다. 현재는 빅데이터와 Machine Learning을 중점에 두고 있습니다.
E-mail: taewanme@gmail.com

Powered by http://taewan.kim