G05-7182802122

한국AI교육협회, 4대 생성형 AI 성능 비교 평가 결과발표

NSP통신, 박유니 기자, 2023-09-04 11:38 KRX7
#한국

(서울=NSP통신) 박유니 기자 = 생성형 AI의 경쟁이 치열한 가운데, 처음으로 4대 생성형 AI의 성능을 비교 평가한 결과가 나와 관심을 모으고 있다. 생성형 인공지능(generative artificial intelligence) 또는 생성형 AI(generative AI)는 질문(프롬프트)에 따라 텍스트, 이미지, 영상 등 콘텐츠(미디어)를 생성하는 일종의 인공지능(AI) 시스템이다. 생성형 AI(생성 AI)는 입력 트레이닝 데이터의 패턴과 구조를 학습한 다음 사용자가 질문을 하면 유사한 특징이 있는 새로운 데이터를 만들어낸다. 즉, 생성형 AI는 텍스트, 이미지, 오디오, 동영상 등의 기존 콘텐츠를 활용하여 학습했다가 사용자가 질문을 하면 그에 맞게 유사한 콘텐츠를 새로 만들어내는 인공지능(AI) 기술을 말한다.

최초의 생성형 AI는 구글이 투자한 오픈AI(OpenAI)사가 개발해 2022년 11월 30일에 출시한 ChatGPT(챗GPT)다. 이후 여러 가지 생성형 AI가 나왔으며, 오픈AI의 챗GPT, 구글의 바드(Bard), 마이크로소프트(MS)의 빙(Bing) 등을 글로벌 3대 생성형 AI라고 한다. 지난 8월 24일 네이버의 하이퍼클로바X가 출시되었다. 네이버 측은 “외산과 붙어도 자신 있다”고 여러 차례 강조했는데, 토종 생성형 AI는 외산과 비교해 성능이 어떤지 궁금해하는 경우가 많다.

한국AI교육협회(회장 문형남 문형남 숙명여대 교수)는 ‘서울대 스마트 에코 마이크로그리드 연구센터(센터장 정현교 서울대 명예교수) 및 ’숙명여대 경영전문대학원’과 공동으로 서울대 스마트 에코 마이크로그리드 연구센터 자문교수와 참여기업 대표 등 10명, 숙명여대 AI융합비즈니스연구실 연구원 10명 등 20명이 참가하여 8월 31일과 9월 2일에 4대 생성형 AI의 성능 평가를 실시했다. 각 평가자들은 모두 4가지(서울대 2, 숙명여대 2) 질문에 대해 5점 척도로 평가를 했다. 100점 만점 평가 결과를 종합하면, 챗GPT 91점, 바드 79점, 빙 51점, 하이퍼클로바X 26점 순으로 나타났다. 챗GPT가 압도적인 점수로 1위를 차지했고, 바드가 12점 차로 그 뒤를 추격하고 있다. 빙과 하이퍼클로바X는 각각 20점 이상의 큰 격차로 뒤처지고 있다.

G03-9894841702

평가시 사용한 질문 문항은 AI융합비즈니스 관련 논문 제목, 2024년 유망 비즈니스(이상 숙명여대 평가), 최근 전력 관련 사업 분야의 이슈, 산업 분야 AI기술 활용 방안(이상 서울대 평가) 등 4개이다.

이번 평가를 기획하고 총괄한 문형남 교수는 “분야에 따라 평가 결과가 다소 달라질 수 있으나, 이번 평가에는 다수의 전문가들이 평가에 참여해 평가의 신뢰성이 있고, 관련 업계와 사용자에게 충분한 시사점을 줄 수 있을 것”이라고 말했다.

ⓒ한국의 경제뉴스통신사 NSP통신·NSP TV. 무단전재-재배포 금지.