김 동욱님의 아티클 더 보기

트렌드

[네이버 AI] 하이퍼클로바X, 음성인식 기술이 초거대 AI 되기까지

네이버의 초거대 AI 개발기

네이버가 드디어 AI 전장에 뛰어 들었습니다.🤖 오는 8월 ‘하이퍼클로바X’를 시작으로 10월까지 다양한 AI 서비스를 공개한다고 밝혔는데요. 국내 기술력으로 개발된 최초의 초거대 AI는 과연 어떤 모습일까요? <디지털 인사이트>가 [네이버 AI] 시리즈를 통해 하이퍼클로바X 소식을 심층적으로 전달합니다.

🍀 [네이버 AI] ①: 8월부터 시작되는 네이버 대격변, 어떤 AI 서비스가 등장할까?
🍀 [네이버 AI] ②: 하이퍼클로바X, 음성인식 기술이 초거대 AI 되기까지
🍀 [네이버 AI] ③: AI 서비스 ‘큐:’ 앞세운 네이버, 새로운 검색 UI·UX의 모습은?
🍀 [네이버 AI] ④: 이젠 검색도 AI로… 네이버 큐, 베타 서비스 시작


챗GPT 등장 이후 전세계적으로 초거대 인공지능(AI) 서비스에 대한 관심이 높아지고 있다. “AI 기반 서비스다”라는 문구 하나만으로 언론과 시장의 주목을 받을 수 있을 정도다. 하지만 언어적 한계와 이에 따른 데이터의 신뢰성 및 최신성 문제, 그리고 높은 비용은 AI 모델 개발의 어려움으로 작용하고 있다.

그렇기에 자체적인 AI 모델 개발 사례는 많지 않고, 기존 AI를 활용한 서비스 출시가 주를 이루고 있다. 국내의 경우 아직 출시되지 않은 경우를 포함하더라도 자체적인 초거대 AI 모델 개발 사례가 다섯 손가락 안에 꼽힐 정도로 드물다. 이런 열악한 상황 속에서 지난 21일 네이버가 ‘하이퍼클로바X’와 이를 기반으로 한 AI 서비스 출시 계획 로드맵을 공개하며, 본격적인 AI 격전지 참전을 선언했다.

과연 네이버의 초거대 AI 서비스 하이퍼클로바는 어떤 과정을 거쳐 개발됐을까? 이번 글에서는 지난 2년 동안의 네이버 AI 개발기를 살펴본다.

AI 스피커를 만들던 네이버… GPT-3를 마주하다

하정우 네이버 클라우드 AI 이노베이션 센터장에 의하면 네이버는 2013년부터 AI 연구를 시작했다. 이후 네이버는 약 4년 동안 딥러닝 AI 팀을 운영하면서 2017년 처음 클로바를 만들었다.

하지만 당시 클로바는 지금과 다르게 음성 인식과 자연어 처리를 기반으로 한 스마트 어시스턴트 기술이었다. 당시 네이버는 통신 메신저 라인과 함께 사용하는 AI 스피커를 중심으로 클로바의 규모를 키웠다.

이렇게 AI 스피커를 중심으로 나아가던 네이버는 2020년 5월 오픈AI의 GPT-3를 마주하게 된다. 이후 하정우 센터장과 성낙호 하이퍼클로바 총괄은 두 달 동안 GPT-3를 체험하면서 아픙로 IT 업계는 초거대 AI 기술을 가진 회사와 기술을 받아 쓰는 회사로 나뉘게 될 것이라는 판단을 내린다.

오픈AI(사진=오픈AI)

두 개발자는 곧바로 경영진에게 초거대 AI 기술을 확보하지 않으면 20년 동안 이어져온 네이버 검색 중심의 ▲정보생산 ▲공유 ▲전파와 이를 기반한 플랫폼 생태계 리더 포지션까지 흔들리게 될 것이라는 보고를 올렸다.

이런 충격적인 보고서를 받게 된 네이버는 2020년 9월 본격적인 초거대 AI 기술 개발에 돌입했고, 이후 약 반년 뒤인 2021년 3월 국내 최초 초거대 AI이자 세계 최대 한국어 언어 모델인 ‘하이퍼클로바’를 완성해 같은해 5월 정식 발표하게 된다.

2021년 5월 진행된 ‘네이버 AI 나우’에서 네이버는 “글로벌 기술 대기업이 대형 AI 모델이 가져올 파괴적 혁신에 대한 기대로 투자를 가속화하고 있다”며 “한국의 AI 기술이 글로벌 플랫폼에 종속되지 않기 위해서는 이미 공개된 기술을 활용하고 따라잡는 수준에 그칠 수 없다고 판단했다”고 개발 배경을 밝히면서 AI 주권을 강조했다.

하이퍼클로바 발표 후 2년… 네이버의 절차탁마

이런 발표에도 불구하고, 네이버는 챗GPT, MS 빙챗, 구글 바드 등 외국 출신 초거대 AI가 국내를 휩쓸던 와중에도 본격적인 초거대 AI 서비스를 전개하지 않았고, 올해 2월이 돼서야 하이퍼클로바X 출시 계획을 발표했다.

이런 네이버의 모습은 일부 이용자 사이에서 네이버의 AI 기술 활용 역량과 경쟁력에 대해 의구심을 불러일으키기도 했다. 외국 초거대 AI와 정면대결을 펼치기에는 아직 네이버의 기술력이 부족한 것이 아니냐는 목소리였다.

이렇게 세간의 우려가 쌓여 가던 지난 2년간 네이버는 AI 경쟁 시장 최전선에서 싸우는 대신, 수면 아래에서 여러 기술을 개발하고 생태계 구축을 준비하는 전략을 취했다.

대표적으로 초거대 언어 모델의 운영 비용을 줄일 수 있는 새로운 양자화 기법을 연구했다. 이렇게 자체 개발한 AI 경량화 기술은 하이퍼클로바, 클로바 노트, 파파고 등의 기존에 출시한 주요 기술과 서비스에 접목돼 하이퍼클로바X의 출시 준비에 일조했다.

클로바 케어콜(사진=네이버)

대화형 AI 서비스를 위한 기술도 준비했다. 인공지능이 장시간 사용자와 대화를 해도 이전에 나눴던 대화 정보를 기억하고 관리하는 기술 연구를 진행해 논문을 발표했다. 이후 해당 기술은 클로바 스피커에 연계한 인공지능 안부 전화 서비스 ‘클로바 케어콜’에 적용돼 실전 테스트를 마쳤다.

기술적 문제뿐만 아니라 최근 문제로 대두 되고 있는 AI 윤리도 고민했다. 네이버는 2022년 대표 학회에서 초거대 AI 윤리를 주제로 한 워크샵을 개최하고, 초거대 AI의 편향 발언을 완화할 수 있는 학습 데이터셋과 프로토콜 연구를 진행하는 등 글로벌 학회에서 AI 윤리 논의를 주도했다. 

그 결과 ‘사람을 위한 AI 개발’ ‘다양성의 존중’ ‘합리적인 설명과 편리성의 조화’ ‘안전을 고려한 서비스 설계’ ‘프라이버시 보호와 정보 보안’ 이라는 5가지 AI 준칙을 마련해 사람을 위한 서비스를 준비하고 있다.

AI에 진심인 네이버는 AI 서비스 개발 론칭 및 생태계 구축을 위해 사내 조직 구조 개편까지 진행했다. 기존 사내 독립기업 형태로 운영되던 클로바CIC를 네이버 클라우드로 흡수한 것이다. 클로바를 기반으로 한 엔터프라이즈 사업을 더욱 확대하고, 초거대 인공지능 수요에 대응해 자원 운영을 최적화하기 위함이었다.

후발주자 네이버 하이퍼클로바X

이렇게 수면 아래에서 기술 개발을 진행하던 네이버는 하이퍼클로바 첫 발표 이후 약 2년 만인 2023년 3월 초거대 AI 모델 ‘하이퍼클로바X’를 발표했다.

네이버가 가장 강조하는 하이퍼클로바의 특징 중 하나는 ‘한국어에 최적화된 AI’ 이다. 하이퍼 클로바는 GPT-3 대비 6,500배 많은 총 5,600억의 한국어 토큰을 학습했다. 이는 50년 치의 뉴스, 9년 치의 네이버 블로그 포스트 양이다. 이런 학습을 통해 하이퍼클로바X는 자연스러운 한국어 표현은 물론 한국 사회의 법과 제도, 문화적 맥락까지 이해할 수 있다.

검색포털 사이트인 네이버가 개발한 인공지능인 만큼 하이퍼클로바X는 검색과의 접목 역시 주요 특징 중 하나다. 하이퍼클로바X가 접목된 검색 챗봇 시스템 ‘큐’는 네이버 사용자의 검색 흐름과 의도를 파악해 최적화된 검색 결과를 제공한다.

그 외에도 하이퍼클로바X는 각 산업 군에서 필요로 하는 데이터를 활용해 원하는 방향으로 튜닝할 수 있는 가변성, 초거대AI에 최적화된 데이터 센터 등을 특징으로 하고 있다.

2년간의 터다지기… 결과는?

김유원 네이버 클라우드 대표는 ‘데뷰 2023’ 컨퍼런스에서 “팀 네이버는 글로벌 수준의 AI 기술력과 역량을 결집시켜 전세계적 변화의 흐름에 가세할 준비를 마쳤다”고 말하면서 “네이버는 AI가 가져올 세상의 변화와 충격에 그 누구보다도 잘 준비돼 있다고 확신한다”고 자신감을 드러냈다. 

이런 김 대표의 자신감이 단순한 자만일지 아니면 충분한 준비와 시행착오 끝에 나온 확신일지는 곧 사용자가 직접 확인할 수 있을 전망이다. 네이버가 하이퍼클로바X를 필두로 오는 8월부터 10월까지 매달 새로운 AI 활용 기술 서비스를 선보일 예정이기 때문이다.

과연 오랜 기간 터다지기 끝에 마침내 AI 경쟁에 뛰어드는 네이버가 자체 기술 경쟁력을 국내외에서 발휘해 성공적으로 사용자를 공략해낼 수 있을지 귀추가 주목된다.