read
  • 본 게시글을 Recurrent Neural Network Regularization 논문을 읽고 작성되었습니다.

RNN

인공 신경망을 성공적으로 적용하기 위해서는 정규화가 요구됩니다. 본 논문에서는 Dropout을 LSTM에 적용하여 과적합을 감소시키는 방법을 보여줍니다. 이는 language modeling, speech recognition, image caption generation, machine translation에 사용됩니다.


본 논문의 주요 내용은 과적합을 성공적으로 줄일 수 있는 LSTM에 드롭아웃을 적용하는 방법입니다. 주요 아이디어는 드롭아웃 연산자를 비순환 연결에만 적용하는 것입니다. 드롭아웃 연산자는 유닛이 운반하는 정보를 변형시키며, 중간 연산을 더 강력하게 수행하도록 합니다. 드롭아웃은 벡터 h 중 랜덤하게 고른 h를 0으로 만들어 드롭아웃을 수행합니다. 동시에, 유닛들의 모든 정보가 지워지는 것을 원하지 않습니다. 유닛들은 과거의 많은 타임 스텝에서 발생된 이벤트를 기억하는 것이 특히 중요합니다. 그림에서는 어떻게 정보가 타임스텝 t-2에서 발생한 사건에서 우리의 드롭아웃 구현 내에 있는 시간 스탭 t+2의 예측으로 흐를 수 있는지를 보여줍니다. 정보가 드롭아웃 연산에 의해 정확하게 L+1 시간에 변형된다는 것을 볼 수 있고, 이 횟수는 정보로 이동한 횟수와는 무관합니다. 일반적인 드롭아웃은 순환 연결에 혼란을 주는데 이것이 LSTM이 장기간 저장된 정보를 학습하는데 어렵게 만듭니다. 순환 연결에 드롭아웃을 사용하지 않음으로써 LSTM은 가치있는 기억 능력을 희생하지 않고 드롭아웃 정규화의 이익을 얻을 수 있습니다.

Blog Logo

Bom


Published

Image

Data Scientist

Data Scientist가 되고 싶은 성장하는 데린이

Back to Overview