
이미지·텍스트 복합 이해 가능한 4종 모델 발표
한국어 OCR·비디오 검색 기능 등 성능 대폭 향상
[SRT(에스알 타임스) 문재호 기자] 엔씨소프트의 인공지능 자회사 NC AI가 멀티모달 모델 ‘바르코 비전(VARCO-VISION) 2.0’을 오픈소스로 공개했다고 16일 밝혔다.
바르코 비전 2.0은 이미지와 텍스트를 동시에 이해할 수 있는 모델로 복잡한 문서, 표, 차트까지 정교하게 처리할 수 있다. 한국어와 영어 모두 자연스럽게 인식하며, 특히 텍스트 생성 능력과 한국 문화에 대한 이해도가 이번 버전에서 크게 강화됐다.
공개된 모델은 총 4종으로 ▲ 14B 대규모 모델 ▲ 1.7B 경량 모델 ▲ 한국어 최적화 OCR 모델(1.7B OCR) ▲ 비디오 임베딩 모델로 구성돼 있다.
이 중 14B 모델은 글로벌 최고 수준으로 평가받는 InternVL3-14B, 알리바바의 Ovis2-16B, Qwen2.5-VL 7B 등을 능가하는 성능을 기록하며, 고차원 분석과 복잡한 추론이 요구되는 업무 환경에 적합하다는 평가를 받았다.
1.7B 모델은 스마트폰, 노트북 등 개인용 디바이스에서도 효율적으로 작동하며, 1.7B OCR은 이미지 속 텍스트 인식에 특화된 모델로 한국어와 영어가 섞인 문장도 높은 정확도로 인식한다.
또한, 비디오 임베딩 모델은 사용자 질문을 기반으로 동영상을 벡터 형태로 변환해 관련 이미지나 영상을 검색하는 기능에 최적화돼 있다.
이번 모델들은 보고서, 계약서, 청구서 등 복잡한 문서의 자동 분석 및 디지털화, 업무 자동화 등에 폭넓게 활용될 수 있다.
NC AI는 이들 4개 모델을 연구 목적의 오픈소스로 제공함으로써, 기술력을 입증하는 동시에 기업, 개인, 공공기관 등 누구나 자유롭게 사용할 수 있도록 해 국내 AI 생태계의 발전에 기여하겠다는 방침이다.
이연수 NC AI 대표는 “AI 기술이 단순 텍스트 기반에서 이미지와 언어를 함께 다루는 비전 언어모델로 진화하고 있다”며 “이번 모델 공개를 통해 미디어, 게임, 패션 등 산업별 특화 AI 분야를 선도하고, 한국형 멀티모달 AI의 주도권을 확보할 가능성을 확인했다”고 강조했다.
