(서울=NSP통신) 이복현 기자 = 삼성전자(005930)가 자체 개발한 AI 업무 생산성 벤치마크 ‘트루벤치(TRUEBench, Trustworthy Real-world Usage Evaluation Benchmark)’를 공개했다.
트루벤치는 삼성전자 DX부문 연구조직 삼성리서치가 사내 생성형 AI 적용 경험을 기반으로 개발한 지표다. 기존 영어 중심·단발 대화 평가에 그친 벤치마크와 달리, ▲10개 카테고리 ▲46개 업무 ▲2,485개 세부 항목을 반영해 실제 오피스 환경에서의 콘텐츠 생성, 데이터 분석, 번역, 연속 대화 등을 평가한다.
사용자는 최대 5개 모델을 동시에 비교할 수 있으며, 응답 길이와 효율성 지표까지 확인할 수 있다. 영어·한국어·일본어·중국어·스페인어 등 12개 언어를 지원하며, 다국어 혼합 환경까지 고려했다. 평가 결과와 데이터 샘플은 글로벌 오픈소스 플랫폼 허깅페이스에 리더보드 형태로 공개됐다.
삼성전자는 AI 교차 검증 방식을 적용해 평가 기준의 오류를 줄이고, 자동 평가를 통해 주관적 편향을 최소화했다.
한편 삼성전자는 10월 19일 에버랜드에서 ‘갤럭시 워치런 @사파리’ 러닝 이벤트를 개최한다. 참가자들은 갤럭시 워치8 시리즈를 착용하고 로스트밸리, 사파리월드, 장미원 등으로 구성된 코스를 달리며 기기 기능을 체험할 수 있다. 참가 접수는 26일부터 29일까지 삼성닷컴을 통해 진행되며, 추첨을 통해 300명을 선발한다.
ⓒ한국의 경제뉴스통신사 NSP통신·NSP TV. 무단전재-재배포 및 AI학습 이용 금지.