[공유]한국어 BERT, HanBert의 개발 과정과 KorQuAD 2.0

PDF 다운로드

“Bert를 직접 만들어보고, MRC(기계독해)에 적용하여 보았습니다. 솔직히 많이 놀랬습니다. NER(Named Entity Recognition)이 꼭 필요하다고 생각하고 있었고, 날짜를 알아내기 위해서는 Chunking 수준이라도 한국어 분석이 필요한 줄 알았습니다. 그런데… 그런 것이 없이도 잘 나옵니다. 너무 쉬운 방법인데도, 결과가 잘 나옵니다. 형태소 분석에서 실패를 해도 크게 영향을 받지 않았습니다. 알파고의 충격보다 더 큰 충격이 NLP에서도 나왔습니다. 이 선물을 어떻게 잘 쓸지에 대해 찾아보고 있습니다. 신문기사에 대해서 MRC를 돌려보았더니, 대답을 잘 합니다. 이제는 아마도 눈이 아파서 글 읽기가 싫을 것 같습니다. ” (TwoBlock Ai, 조영환)

3차례에 걸쳐서 BERT 모델 학습 진행 :

  • 1차 : 5개 모델 학습   : 연습용, TFRC 프로그램 활용
  • 2차 : 10개 모델 학습   : 코퍼스 조합 + 모델 크기
  • 3차 : 5개 모델 학습   : Vocab 2가지 + 모델 크기

Corpus/Vocab/Steps의 양과 질이 Bert의 품질에 영향을 미침

  • 학습의 대상이 되는 Corpus의 품질과 양이 가장 큰 영향을 미침 (일반문서 vs 특허문서)
  • Vocab의 양과 질이 Bert의 성격에 영향을 미침 (잘못된 Vocab, 54k / 90k Vocab)
  • 학습 Step 수가 증가하면 Bert의 성능이 높아짐 (loss를 관찰하면서 종료시점 선택)

HanBert의 성능 평가 : nsmc, korquad 1.0/2.0

  • nsmc에서는 ML(Medium Large)모델의 성능이 N(Normal)모델 보다 높았음
  • 90k Vocab에 비해서 54k Vocab이 문어체 (korquad)에서 성능이 높음
  • KorQuAD 1.0의 경우에 Large 모델의 성능을 Normal 모델이 따라가기 어려움
    • KorQuAD 1.0을 위한 모델은 텍스트를 Scan하는 방식으로 충분함
  • KorQuAD 2.0의 경우에 테이블 이해 가능성 확인, 문서 이해 모델이 필요함
    • 문서 구조에 대한 것은 문장으로 학습한 Bert의 한계를 넘어섬

기계독해의 특징: “정답이 아니라고 말하기 어려운 답변”이 여럿있고, 질문이 좋아야 함 

  • 기사 중 : ” . . . 네이버는 . . . 오디오 콘텐츠를 유튜브에 맞설 핵심 역량으로 삼고 있다.”
    • 무엇으로 유튜브에 맞서? -> “네이버” 
    • 네이버는 무엇으로 유튜브에 맞서? -> “오디오 콘텐츠”
    • 무엇으로 유투브에 맞서? -> “오디오 콘텐츠”

답글 남기기

아래 항목을 채우거나 오른쪽 아이콘 중 하나를 클릭하여 로그 인 하세요:

WordPress.com 로고

WordPress.com의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Google photo

Google의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Twitter 사진

Twitter의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Facebook 사진

Facebook의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

%s에 연결하는 중