뉴스

미디어젠, 초거대 언어 모델 TTA 성능 검증 통과

2억 어절 넘는 초거대 규모 데이터에 대한 유효성 검증

2024.01.17

미디어젠 컨소시엄의 초거대 언어 모델(LLM)이 TTA의 성능 검증을 통과했다고 17일 밝혔다.

미디어젠 컨소시엄은 ‘과학기술정보통신부’가 주관하고 ‘한국지능정보사회진흥원(NIA)’이 추진하는 2023년도 인공지능 학습용 데이터 구축 사업의 ‘초거대 AI 모델’을 위한 인공지능 학습용 데이터 구축 사업자로 최종 선정된 바 있으며, 약 2억 어절이 넘는 초거대 규모 헬스케어 분야 생성형 AI 챗봇 질의응답 데이터를 구축 완료했다.

미디어젠은 이번에 구축된 데이터에 대해 통계적 다양성, 구문 정확성, 의미 정확성, 유사성 등에 대해 진행된 TTA의 정밀 검증에서 모두 합격 판정을 받았다.

특히, 초거대 언어 모델 성능을 평가하는 TTA의 유효성 검증에서 챗봇의 답변 성공률에 대한 생성 모델 비교 평가 결과 ROUGE-1, ROUGE-2 기준을 모두 달성함으로써, AI 학습용 데이터의 안정성은 물론 초거대 언어 모델의 성능도 공식적 입증도 받게 됐다.

이번 사업을 총괄하고 있는 송민규 미디어젠의 상무는 “초거대 AI 모델의 최적 성능 확보를 위한 증강 데이터와 생성형 질의응답 모델이 TTA 성능 검증을 통과한 것에 매우 기쁘다”고 밝혔다.

한편, 초거대 AI 모델 학습을 위한 헬스케어 질의응답 데이터 구축은 2023년 12월 말까지 데이터 수집 및 AI 모델 검증이 완료됐으며, 2024년 상반기 한국지능정보사회진흥원이 운영하는 AI-Hub를 통해 모든 데이터가 일반에 공개될 예정이다.

뉴스콘텐츠는 저작권법 제7조 규정된 단서조항을 제외한 저작물로서 저작권법의 보호대상입니다. 본 기사를 개인블로그 및 홈페이지, 카페 등에 게재(링크)를 원하시는 분은 반드시 기사의 출처(로고)를 붙여주시기 바랍니다. 영리를 목적으로 하지 않더라도 출처 없이 본 기사를 재편집해 올린 해당 미디어에 대해서는 합법적인 절차(지적재산권법)에 따라 그 책임을 묻게 되며, 이에 따른 불이익은 책임지지 않습니다.

에디터이민호 (treewords@ditoday.com)

답글 남기기 응답 취소

디지털인사이트 뉴스레터 구독하기

이메일 주소*

닉네임

직군*

연차

(필수) 에 동의합니다.

개인정보 수집 및 이용

뉴스레터 발송을 위한 최소한의 개인정보를 수집하고 이용합니다. 수집된 정보는 발송 외 다른 목적으로 이용되지 않으며, 서비스가 종료되거나 구독을 해지할 경우 즉시 파기됩니다.

(필수) 에 동의합니다.

광고성 정보 수신

제휴 콘텐츠, 프로모션, 이벤트 정보 등의 광고성 정보를 수신합니다.

이민호

이민호님의 다른 아티클 더 보기

미디어젠, 초거대 언어 모델 TTA 성능 검증 통과

답글 남기기 응답 취소

이민호

이민호님의 다른 아티클 더 보기

당신이 좋아할 만한 아티클

前 게티이미지코리아 대표, 그는 왜 생활폐기물 DX에 뛰어 들었을까?

초상집 상복 벗어 던지나… 다음이 4색 로고 디자인을 롤백한 이유는?

인간공학과 사용자 중심 디자인(UCD)의 선구자 헨리 드레이퍼스

“앱 갈아엎었는데 평점 4.7?” IBK기업은행이 ‘슈퍼앱’ 대신 택한 승부수

인기있는 아티클

토스와 네이버 단말기로 본 매장 결제 UX

소비 심리 변화로 본 2026년 ‘리커머스’ 키워드 3가지

데이터 너머의 공감으로… 사람을 위한 AI 금융이란 무엇일까?

AI 시대 UX 라이터, ‘작성자’에서 ‘조율자’로 전환해야