[세미나] 기계독해의 원리와 활용

저희 팀이 과학기술정보통신부에서 주최한 2019년 AI Starthone에 이어서 2020년 인공지능온라인 경진대회에서도 기계독해 부분에서 2연패를 하였습니다. 올해의 경진대회에서는 문자인식 분야의 2문제에서 1위, 기계독해 분야의 1문제에서 1위를 하여, 전체 400개 팀이 참가한 경진대회 전체에서 종합 1위를 하였습니다. 기계독해의 원리와 응용에 대해서 세미나를 요청하시는 분을 위해서, 나름데로는 쉽게 발표자료를 만들어 보았습니다. [세미나 자료] 기계독해의 원리와 활용.pdf

HanBert 패키지 : 상업적 활용 방법

HanBert의 공개 이후에 상업적 활용에 대한 문의가 지속되어서 아래와 같이 HanBert 패키지를 만들어서 기술 지원해드립니다. [참고] TwoBlock Ai가 2020년 Ai 바우처 사업의 공급기업 Pool에 등록되었습니다. [PDF 다운로드] 문의: 070-8728-2233 Email: dykim@tbai.info  담당자: 김동엽 이사

[채용공고]

“말을 알아듣는 Ai가 만들어 가는 편리한 세상”을 함께 만들어 나갈 동료를 찾고 있습니다. 파이썬 챗봇 시나리오 개발 (채용 중): 다양한 챗봇 서비스의 시나리오를 파이썬으로 개발합니다. 자유도가 높은 대화 운영을 위하여 저희가 선택한 개발 도구는 파이썬입니다. 챗봇과 1:1 혹은 2:1 채팅의 환경에서 대화를 운영하기 위한 다양한 상황에 대한 시나리오를 직접 코딩합니다. 이때에 사용자 Profile과 대화 시나리오, […]

[데모] 기계 독해

글을 읽고 대답을 하는 수준을 알아 볼 수 있도록 데모페이지를 만들어서 보여드립니다. 이미 공개되어 있는 HanBert-54kN-MRC의 모델로 제작이 되었습니다. HanBert의 상업적인 활용을 위해서는 [상업적 활용] 을 참고해주세요. 모비젠의 IRIS SaaS 서비스로도 제공되고 있습니다. 데모는 KorQuAD 1.0 수준의 학습셋으로 테이블을 읽는 능력은 포함되어 있지 않지만, 뉴스 기사나 대화 문장에서 질문에 답을 찾아내는 것을 보여줍니다. NER이나 온톨로지 […]

한국어 BERT, HanBert를 공개합니다.

한국어 BERT와 이를 사용하기 위한 한국어 분석기 Moran, 그리고 기계독해 예제 등이 포함되어 있습니다. HanBert를 이용한 재미있는 [기계독해 데모] 를 방문해 보세요. HanBert의 상업적인 활용을 위해서는 [상업적 활용] 을 참고해주세요. 검색이나 홈페이지에서 찾으신 분은 찬찬히 읽어보신 후에 맨 아래부분에서 다운로드해주세요. GitHub에서 오신 분들은 별표 하나 눌러주시고 다운로드 해주세요. ^^ [별누르러 다시 가기] HanBert-54kN [다운로드] 구글 […]

특허 출원

정부기관과 투자사들은 객관적인 평가를 위해서 일정 수준의 Spec을 요구합니다. 그중에 하나가 지적자산이 특허입니다. 많은 경쟁자들 중에서 공정성있는 평가를 했다는 나름의 기준이 있어야 하니까 어쩔 수 없는 것 같습니다. 그래서 3개의 특허를 출원했습니다. (2019. 12) 딥러닝 학습을 위한 한국어 표기 방법 (출원번호 10-2019-0177174) 딥러닝을 위한 한국어 코퍼스는 어떻게 구성이 되어야 할까? 명사 “가”와 조사 “가”는 어떻게 […]

한국어 BERT, HanBert의 개발 과정과 KorQuAD 2.0

PDF 다운로드 “Bert를 직접 만들어보고, MRC(기계독해)에 적용하여 보았습니다. 솔찍히 많이 놀랬습니다. NER(Named Entity Recognition)이 꼭 필요하다고 생각하고 있었고, 날짜를 알아내기 위해서는 Chunking 수준이라도 한국어 분석이 필요한 줄 알았습니다. 그런데… 그런 것이 없이도 잘 나옵니다. 너무 쉬운 방법인데도, 결과가 잘 나옵니다. 형태소 분석에서 실패를 해도 크게 영향을 받지 않았습니다. 알파고의 충격보다 더 큰 충격이 NLP에서도 나왔습니다. […]

[뉴스] TBai가 KorQuAD 2.0 리더보드에 올라갔습니다.

개방형 경진대회 사업화 지원금 1.6억원을 총 투입해서 세차례에 걸쳐서 총 20개 이상의 한국어 Bert를 구웠는데, 3번째로 구웠던 가마에서 괜찮은 모델이 나왔습니다. 이름을 HanBert라고 하였고 사전과 크기에 따라서 이름을 붙쳤습니다. HanBert-54kN이라는 친구의 이름에서 54k는 54000개의 사전 표제어, 90k는 90000개의 사전표제어를 의미합니다. N은 Normal Size, S는 Small Size, ML은 Medium Large를 의미합니다. https://korquad.github.io/ 그것으로 그… 어렵다는… KorQuAD […]

모란소프트의 추억

우리나라에 2005년부터 2013년까지, 한국어 처리를 전문으로 하였던 회사가 있었습니다. 1995년도에 검색 솔루션을 위한 한국어 색인어 추출기를 개발하여, 여러 솔루션 회사와 네이버/다음 등의 검색포탈에 제공하였고, 여러가지 한국어 처리에 관련된 기술을 공급하였던 회사입니다. [모란소프트] 홈페이지 (CLICK) 2014년에 대표가 프랑스로 잠시 이주를 하면서, 사업은 중단되었었습니다. 그 모란소프트의 제품과 기술 그리고 소프트 자산을 (주)투블럭Ai가 양도받았습니다. 관련된 문의를 환영합니다. moransoft@gmail.com […]