Dharma
[Deep Learning] seq2seq 를 이용한 챗봇 (Neural Machine Chatbot) 본문
최근 열심히 공부해서 간단한 챗봇을 만들 수가 있었습니다. 형태가 간단할 뿐이지 그 안에 들어 있는 Deep Learning 은 구글의 최신 NMT example 을 참조해서 만들었습니다.
github 에 올리는 거라 대충 영어로 올렸지만 좀 자세한 설명은 여기에 남길려고 합니다.
NMT(Neural Machine Traslation) 과 chatbot 은 원리상 거의 같습니다. seq2seq 방식으로 RNN 세팅해서 교육시키는 것 까지 동일합니다. 따라서 잘 만들어진 NMT 는 training 자료만 교체해서 챗봇으로 활용 가능합니다.
소스는 https://github.com/crazia/NM-chatbot 에서 받을 수 있습니다.
파이썬(python) 버젼은 3.6 이고 tensorflow 버젼은 1.8 입니다. 그 외 다른 라이브러리는 필요 없습니다.
기본적으로 NMT 소스는 많이 복잡하고 옵션도 다양합니다. 이 소스를 기반으로 했기 때문에 트레이닝(Training)은 NMT 의 옵션과 실행을 그대로 가져갑니다. 대신 입출력을 최소한으로 간소화 시켰기 때문에 추후에 다른 방면으로 이용할 때(서비스 등을 만들때)는 chat.py 만 연구해서 떼어 붙이면 됩니다.
챗봇을 구동 시킬려면 우선 교육을 시켜야 합니다. 그러면 교육 시키는 방법부터 알아야 합니다. 그러면 교육시키기 위한 자료들 부터 규정합니다.
1. Train set
교육을 시키기 위해서 필요한 자료 입니다. 챗봇은 사용자가 '질문'을 던지면 '응답'을 하는 구조로 되어야 합니다. 따라서 train.req 와 train.rep 두 파일이 필요합니다. 각각의 파일은 질문이 들어 있는 (req) 파일과 응답이 들어있는 rep 파일이 쌍으로 필요합니다. train.req 의 132 번째 줄에 있는 질문에 대한 답은 train.rep 의 132 번째 줄에 존재해야 합니다.
당연히 훌륭한 챗봇은 이 데이타가 확실하게 많아야 합니다.
2. Test set
교육이 잘 됐는지 확인하기 위해서 필요한 자료입니다. train 에 있는 내용을 발췌해서 써도 되고 아니면 한번 train 에 있는 단어들을 이용해서 적당히 만들어서 써도 됩니다.
3. Dev set
Test set 하고 다른 케이스의 Test 를 정리해도 되지만 같은 것을 써도 무방합니다.
4. Vocabulary file
교육과 테스트 전 과정에서 쓰이는 단어집이 필요합니다. 따라서 train.req 와 train.rep 에서 쓰이는 모든 단어를 모아서 단어집으로 가지고 있는 것이 좋습니다. 기본적으로 NMT 는 통역이라 각각의 과정에서 쓰이는 단어집이 다릅니다. (영어-> 베트남 이라면 영어 단어집 하고 베트남 단어집이 따로 존재) 하지만 챗봇은 같은 언어 이기 때문에 굳이 다를 필요는 없을 것이라고 판단했습니다.
이 단어집을 쉽게 만들어줄 수 있는 파일이 존재해서 그냥 가져다가 조금 바꿔 줬습니다.
$PROJECT/bin/generate_vocab < train.file > vocab.req cp vocab.req vocab.rep
이와 같이 하면 단어집을 쉽게 만들어 줄 수 있습니다.
5. 이 모든 파일을 한 디렉토리에 모아 둡니다.
mkdir -p /tmp/nmt_chat cp train.req train.rep test.req test.rep vocab.req vocab.rep /tmp/nmt_chat
이제 교육 시키기 위한 모든 자료가 준비 됐으니 교육을 시키면 됩니다.
$PROJECT/python nmt.py \
--attention=scaled_luong \
--src=req --tgt=rep \
--vocab_prefix=/tmp/nmt_chat/vocab \
--train_prefix=/tmp/nmt_chat/train \
--dev_prefix=/tmp/nmt_chat/test \
--test_prefix=/tmp/nmt_chat/test \
--out_dir=/tmp/chat_model \
--num_train_steps=12000 \
--steps_per_stats=100 \
--num_layers=4 \
--num_units=128 \
--dropout=0.2 \
--metrics=bleu
여기에서 신경 써야할 몇가지 사안들을 지적하겠습니다.
attention 알고리즘을 선택해야 효율이 좋아지기 때문에 꼭 선택을 해줘야 합니다.
src 와 tgt 는 내가 이용하는 파일의 확장자들입니다. 저는 req 와 rep 를 썼기 때문에 그걸 지정해 준것입니다.
vocab_prefix 는 단어장으로 써야할 파일의 파일명입니다. (확장자는 req 와 rep)
train_prefix 는 교육시킬때 써야할 파일의 파일명입니다. 여기서는 train 이라고 씁니다.
dev_prefix 와 test_prefix 는 테스트 할때 쓸 파일의 파일명입니다. 여기서는 test 라고 만든것을 써줍니다.
정말 중요한 out_dir 입니다. 교육시킨 결과물이 저장되는 곳입니다. 그리고 이후에 실행할 때 교육된 정보값을 가져오기 위해서도 입력해야 합니다.
num_train_steps 얼마만큼 교육을 시킬것인가 하는것입니다. RNN 은 제대로 효과를 볼려면 꽤 많은 횟수로 교육을 시켜야 합니다.
steps_per_stats 몇번 마다 로그를 남길것인가 하는것입니다. 체크포인트(checkpoint: 교육 결과 저장이 10x steps_per_stats 마다 일어납니다)
num_layers 는 RNN 을 몇 계층으로 할 것인지 입력하는 것입니다. 간단한 건 2 계층, 시스템이 허용된다면 8 계층에서 가장 최적의 효과를 보였다고 벤치마크는 말합니다.
num_units 는 네트워크 사이즈 입니다.
dropout 은 Deep Learning 에서 교육중 건너뛰고(?) 얼마만큼 교육시킬건지 지정해 주는 수치 입니다. 교육자료가 많을 때 사용하면 좋습니다.
너무나 당연하지만 gpu 버젼으로 교육시키면 효과가 훨씬 좋습니다. 저는 개발은 OSX 에서 하지만 교육은 제 PC 에서 합니다. nvdia 그래픽 카드를 소유하고 있어서..
이제 모든 교육이 끝났으니까 챗봇을 구동하면 됩니다.
챗봇 구동시키기
python chat.py --out_dir=/tmp/chat_model