HanBert를 공개합니다.

다운로드 링크는 글의 맨 끝에 있습니다. HanBert 굽는데는 일부 TFRC 프로그램의 협찬을 받았습니다. 2019년 개방형 경진대회 우수기업 사업화 지원의 결과물 중 일부 입니다. 홈페이지에서 찾으신 분은 찬찬히 읽어보신 후에 다운로드해주세요. GitHub에서 오신 분들은 별표 하나 눌러주시고 다운로드 해주세요. ^^ [별누르러 다시 가기] HanBert-54kN [다운로드] 구글 드라이브에서 다운로드 됩니다. Pre-trained Hangul-BERT (HanBert-54kN) HanBert-54kN : HanBert 기본 […]

특허 출원

정부기관과 투자사들은 객관적인 평가를 위해서 일정 수준의 Spec을 요구합니다. 그중에 하나가 지적자산이 특허입니다. 많은 경쟁자들 중에서 공정성있는 평가를 했다는 나름의 기준이 있어야 하니까 어쩔 수 없는 것 같습니다. 그래서 3개의 특허를 출원했습니다. (2019. 12) 딥러닝 학습을 위한 한국어 표기 방법 (출원번호 10-2019-0177174) 딥러닝을 위한 한국어 코퍼스는 어떻게 구성이 되어야 할까? 명사 “가”와 조사 “가”는 어떻게 […]

한국어 BERT, HanBert의 개발 과정과 KorQuAD 2.0

PDF 다운로드 “Bert를 직접 만들어보고, MRC(기계독해)에 적용하여 보았습니다. 솔찍히 많이 놀랬습니다. NER(Named Entity Recognition)이 꼭 필요하다고 생각하고 있었고, 날짜를 알아내기 위해서는 Chunking 수준이라도 한국어 분석이 필요한 줄 알았습니다. 그런데… 그런 것이 없이도 잘 나옵니다. 너무 쉬운 방법인데도, 결과가 잘 나옵니다. 형태소 분석에서 실패를 해도 크게 영향을 받지 않았습니다. 알파고의 충격보다 더 큰 충격이 NLP에서도 나왔습니다. […]

[뉴스] TBai가 KorQuAD 2.0 리더보드에 올라갔습니다.

개방형 경진대회 사업화 지원금 1.6억원을 총 투입해서 세차례에 걸쳐서 총 20개 이상의 한국어 Bert를 구웠는데, 3번째로 구웠던 가마에서 괜찮은 모델이 나왔습니다. 이름을 HanBert라고 하였고 사전과 크기에 따라서 이름을 붙쳤습니다. HanBert-54kN이라는 친구의 이름에서 54k는 54000개의 사전 표제어, 90k는 90000개의 사전표제어를 의미합니다. N은 Normal Size, S는 Small Size, ML은 Medium Large를 의미합니다. https://korquad.github.io/ 그것으로 그… 어렵다는… KorQuAD […]

모란소프트의 추억

우리나라에 2005년부터 2013년까지, 한국어 처리를 전문으로 하였던 회사가 있었습니다. 1995년도에 검색 솔루션을 위한 한국어 색인어 추출기를 개발하여, 여러 솔루션 회사와 네이버/다음 등의 검색포탈에 제공하였고, 여러가지 한국어 처리에 관련된 기술을 공급하였던 회사입니다. 2014년에 대표가 프랑스로 잠시 이주를 하면서, 사업은 중단되었었습니다. 그 모란소프트의 제품과 기술 그리고 소프트 자산을 (주)투블럭Ai가 양도받았습니다. 관련된 문의를 환영합니다. moransoft@gmail.com OR info@tbai.info

[뉴스] TBai가 2019년 개방형 경진대회 우수기업 사업화 지원 사업에 선정되었습니다.

저희 팀이 AI 프로그래밍 경진대회를 통해서 예선을 통과 하였고, 사업 아이템 발표 심사를 통해서 최종 선정이 되었습니다. 저희 팀이 도전한 문제는 “뉴스 기사”를 AI가 읽고 “질문”에 “대답”하는 것입니다. 보통 MRC – Machine Reading Comprehension, 기계 독해 – 라고 하는 분야입니다. 전통적으로 컴퓨터를 이용해서 사람의 언어를 이해하는 분야에서 3가지 중요한 문제 – 기계 번역, 기계 독해, […]