[뉴스] TBai가 KorQuAD 2.0 리더보드에 올라갔습니다.

개방형 경진대회 사업화 지원금 1.6억원을 총 투입해서 세차례에 걸쳐서 총 20개 이상의 한국어 Bert를 구웠는데, 3번째로 구웠던 가마에서 괜찮은 모델이 나왔습니다. 이름을 HanBert라고 하였고 사전과 크기에 따라서 이름을 붙쳤습니다.

HanBert-54kN이라는 친구의 이름에서 54k는 54000개의 사전 표제어, 90k는 90000개의 사전표제어를 의미합니다. N은 Normal Size, S는 Small Size, ML은 Medium Large를 의미합니다.

https://korquad.github.io/

그것으로 그… 어렵다는… KorQuAD 2.0에 도전을 해서 올해가 가기 전에 일단 결과를 만들어 냈습니다. KorQuAD 2.0은 위키피디아 문서 전체를 읽어서 질문에 대답을 하는 찾아내는 문제입니다. 문서가 여러개의 섹션으로 나뉘어 있고, 테이블과 리스트도 있기 때문에 답을 찾는 것이 쉽지 않았습니다. 어떤 문제는 테이블 전체 혹은 설명문 전체를 답으로 내야 하기도 합니다.

다행히 방법의 일부를 찾아서 일단 70점을 넘겨 보았습니다.

HanBert-54kN과 HanBert-90kN으로 급하게 올려 보았습니다. 54kML과 90kML이 좀더 높은 성능을 가지고 있어서, 지금의 방식으로는 75점까지는 올릴 수 있을 것 같습니다.

문서구조의 이해 부분을 추가한다면 사람의 성능인 83점까지도 도전을 해볼 수 있을 것 같은데, 일단, 저희는 여기까지 해놓고, 돈벌러 다녀야 합니다. 사업화 과제의 결과물이기도 하고, 저희는 작은 회사이니까, 사업화에 더 신경을 쓸 수 밖에 없네요.

혹시 관심있는 분들은 저희와 같이해서 도전해보시면 좋겠습니다.

저희 회사에서 인턴을 하고 싶은 석사/박사 학생이나 혹은 HanBert를 사용해서 연구를 하고 싶은 교수님의 연락을 기대합니다.

같이 일하고 싶은 분은 두팔 벌려 환영합니다.

(간단하게 이력서 보내주시고, 통화하시면 되겠습니다)

info@tbai.info

답글 남기기

아래 항목을 채우거나 오른쪽 아이콘 중 하나를 클릭하여 로그 인 하세요:

WordPress.com 로고

WordPress.com의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Google photo

Google의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Twitter 사진

Twitter의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Facebook 사진

Facebook의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

%s에 연결하는 중