뉴스

미디어젠, 초거대 언어 모델 TTA 성능 검증 통과

2억 어절 넘는 초거대 규모 데이터에 대한 유효성 검증

(자료=미디어젠)

미디어젠 컨소시엄의 초거대 언어 모델(LLM)이 TTA의 성능 검증을 통과했다고 17일 밝혔다.


미디어젠 컨소시엄은 ‘과학기술정보통신부’가 주관하고 ‘한국지능정보사회진흥원(NIA)’이 추진하는 2023년도 인공지능 학습용 데이터 구축 사업의 ‘초거대 AI 모델’을 위한 인공지능 학습용 데이터 구축 사업자로 최종 선정된 바 있으며, 약 2억 어절이 넘는 초거대 규모 헬스케어 분야 생성형 AI 챗봇 질의응답 데이터를 구축 완료했다.

미디어젠은 이번에 구축된 데이터에 대해 통계적 다양성, 구문 정확성, 의미 정확성, 유사성 등에 대해 진행된 TTA의 정밀 검증에서 모두 합격 판정을 받았다.

특히, 초거대 언어 모델 성능을 평가하는 TTA의 유효성 검증에서 챗봇의 답변 성공률에 대한 생성 모델 비교 평가 결과 ROUGE-1, ROUGE-2 기준을 모두 달성함으로써, AI 학습용 데이터의 안정성은 물론 초거대 언어 모델의 성능도 공식적 입증도 받게 됐다.

이번 사업을 총괄하고 있는 송민규 미디어젠의 상무는 “초거대 AI 모델의 최적 성능 확보를 위한 증강 데이터와 생성형 질의응답 모델이 TTA 성능 검증을 통과한 것에 매우 기쁘다”고 밝혔다.

한편, 초거대 AI 모델 학습을 위한 헬스케어 질의응답 데이터 구축은 2023년 12월 말까지 데이터 수집 및 AI 모델 검증이 완료됐으며, 2024년 상반기 한국지능정보사회진흥원이 운영하는 AI-Hub를 통해 모든 데이터가 일반에 공개될 예정이다.

  • 에디터이민호 (treewords@ditoday.com)

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다

성장하는 실무자를 위한
단 하나의 뉴스레터

뉴스레터 구독하기
하루동안 안보기