▶ 한국 ‘AI 주권’ 시대로
▶ 한글 AI모델로 생태계 확대하려면 학습데이터·컴퓨팅자원 확보 필수
▶ 데이터는 비용보다 양·접근성이 문제
▶ 모두 원하는 GPU…정부 협상력에 달려
한국전자통신연구원(ETRI)은 지난해 한국어 중심 소형언어모델(SLM)인 ‘이글’을 공개했다. 시중에 대형언어모델(LLM)이 많지만, 비용과 컴퓨팅 자원 한계로 활용이 어려운 중소·중견기업들을 위한 인공지능(AI)을 개발한 것이다. 이글이 학습한 데이터 중 약 20%가 한국어 기반이다.
빅테크 기업의 AI는 데이터 중 한국어가 5%에도 못미치는 데다, 영어로 생성한 응답을 한국어로 번역하는 방식이라 연산 자원 소모가 많다. 이에 비해 이글은 한국어 작업에서 다른 모델보다 약 15% 더 높은 성능을 보인다. 기업이 축적한 한글 데이터로 특화 학습을 하기에도 유리하다.
이글은 이재명 대통령이 공약한 ‘모두의 AI’와 비슷한 취지로 개발됐다. 하지만 과정은 순탄치 않았다. 연구팀이 쓴 그래픽처리장치(GPU)는 단 한 대뿐. 그마저도 구축에만 약 2년이 걸렸다.
고성능 GPU만 충분하다면 SLM은 하루면 학습이 가능하지만, 준비에 오랜 시간을 보내야 했다. 데이터 확보 역시 난제였다. 권오욱 ETRI 인공지능창의연구소 지능정보연구본부장은 “영어에 비해 한국어는 양질의 공개된 데이터가 부족하다”며 “SLM도 데이터 투입에 따라 성능이 달라지기 때문에 원활한 데이터 확보를 위한 지원이 필요하다”고 말했다.
ETRI의 사례는 소버린AI 구축 과정에서 겪게 될 난관을 압축적으로 보여준다. 학습용 데이터와 컴퓨팅 자원 등 인프라 부족은 수년째 계속돼온 고질적인 문제다. 하정우 AI미래기획수석의 주장처럼 ‘한국어 파운데이션(기반) 모델’을 개발해 AI 생태계를 확대하려면 인프라부터 해결해야 한다. 전문가들은 공격적인 투자로 문제를 풀되, 한국 특수성에 맞춘 전략 설계가 필요하다고 조언한다.
19일 소프트웨어정책연구소의 ‘2024 인공지능산업 실태조사’에 따르면 AI 기업 59.5%는 양질의 데이터를 확보하는 데 어려움을 겪고 있다. 2021년 조사에서 같은 답변은 60.8%였다. 지난 4년간 문제가 개선되지 않은 것이다. 기업들의 애로사항은 ‘AI 서비스에 쓸 만한 고품질 데이터 확보가 어렵다’로 귀결된다. 금융·의료 등 민감하지만 가치가 높은 데이터는 수집이 어렵고 개인정보 관련 규제도 많다. 각 기업이 핵심 데이터를 쥐고 있지만, 이를 거래할 시장도 활성화하지 못했다는 지적이다.
문제 해결을 위해 정부가 내놓은 대책은 ‘돈’이다. 국가인공지능위원회는 지난 2월 ‘국가 AI 역량 강화방안’으로 ‘월드베스트 LLM’ 프로젝트를 제시하며 “AI 국가대표 정예팀을 선발해 양질의 데이터 구입 및 가공 비용을 지원하겠다”고 밝혔다.
전문가들은 그러나 영어와 중국어에 비해 양적으로 부족한 한국어의 특성상 돈 투입만으로는 근본적인 한계가 있다고 지적한다. 대신 한국이 강점을 가진 산업에 특화한 핵심 데이터를 모아 공동으로 연합학습을 하는 윈-윈 전략이 대안으로 제시된다. 바이오 업계에서 진행하는 ‘K-멜로디’가 그런 예다. 김화종 한국제약바이오협회 K-멜로디 사업단장은 “우리나라는 세계 최고의 바이오 데이터를 보유했지만, 기관과 영역별로 호환되지 않아 활용이 어렵다”며 “데이터로 연합학습을 하되 외부로 공유하지 않도록 보완하면 AI 신약개발에 도움이 될 것”이라고 말했다.
이재명 정부가 공약한 ‘GPU 5만 개 확보’라는 목표 자체에는 전문가들도 큰 이견이 없다. 오히려 ‘컴퓨팅 인프라는 많으면 많을수록 좋다’는 의견도 나온다. 문제는 재원 마련과 시행에 민간의 참여가 핵심인데, 이를 어떻게 확보해나가느냐다. 당장 2027년까지 GPU 1만 장 규모의 국가 AI컴퓨팅센터를 구축하려는 사업부터 삐걱거리고 있다. 정부가 지분의 51%를 갖고 의사결정을 주도하는 구조로 사업이 설계되면서 민관 합작에 나서는 기업이 없어 공모가 두 번이나 유찰됐다.
정부가 사업 구조를 재검토하면서 민간 기업에 주도권을 넘겨야 한다는 지적이 나온다. 김정호 한국과학기술원(KAIST) 전기및전자공학부 교수는 “GPU 확보 과정에서 국가 지분을 줄이고 기업에 주도권을 주는 방식으로 사업을 개편해야 더 효율적이고 빠르게 추진될 것”이라고 조언했다.
정부가 할 역할은 따로 있다. 주요 컴퓨팅 인프라 확보를 위해 외교력을 발휘하는 것이다. 이재성 중앙대 AI학과 교수는 “모든 국가가 미국 엔비디아에서 GPU를 구하려 하지만 생산량도 제한된 데다 미국도 이를 국가 전략자원으로 보호하고 있다”며 “재원뿐 아니라 정부의 협상 능력이 인프라 확보 속도를 결정할 것”이라고 말했다.
<
신혜정·이재명·김태연 기자>
댓글 안에 당신의 성숙함도 담아 주세요.
'오늘의 한마디'는 기사에 대하여 자신의 생각을 말하고 남의 생각을 들으며 서로 다양한 의견을 나누는 공간입니다. 그러나 간혹 불건전한 내용을 올리시는 분들이 계셔서 건전한 인터넷문화 정착을 위해 아래와 같은 운영원칙을 적용합니다.
자체 모니터링을 통해 아래에 해당하는 내용이 포함된 댓글이 발견되면 예고없이 삭제 조치를 하겠습니다.
불건전한 댓글을 올리거나, 이름에 비속어 및 상대방의 불쾌감을 주는 단어를 사용, 유명인 또는 특정 일반인을 사칭하는 경우 이용에 대한 차단 제재를 받을 수 있습니다. 차단될 경우, 일주일간 댓글을 달수 없게 됩니다.
명예훼손, 개인정보 유출, 욕설 등 법률에 위반되는 댓글은 관계 법령에 의거 민형사상 처벌을 받을 수 있으니 이용에 주의를 부탁드립니다.
Close
x