'SW위기 촉발' 앤트로픽, 더 강력한 AI '클로드 오퍼스4.6' 공개

2 hours ago 2

'에이전트 팀' 기능 도입…벤치마크서도 챗GPT·제미나이 능가

이미지 확대 [로이터=연합뉴스 자료사진. 재판매 및 DB 금지]

[로이터=연합뉴스 자료사진. 재판매 및 DB 금지]

(샌프란시스코=연합뉴스) 권영전 특파원 = 인공지능(AI)발 소프트웨어(SW) 위기론'의 진원지인 앤트로픽이 더 강력한 AI 모델을 선보였다.

앤트로픽은 자사의 AI 챗봇 '클로드'의 최상위 모델 '오퍼스 4.6'을 출시한다고 5일(현지시간) 밝혔다.

지난해 11월 말에 이전 판인 '오퍼스 4.5'를 선보인 지 불과 2개월여 만에 새 버전을 내놓은 것이다.

오퍼스 4.6에서 가장 주목되는 기능은 '에이전트 팀'의 도입이다. AI 에이전트를 하나가 아니라 여럿 부릴 수 있는 기능이다.

앤트로픽의 제품 총괄인 스콧 화이트는 미 정보기술(IT) 전문매체 테크크런치에 "한 에이전트가 작업을 차례로 처리하도록 하는 대신 여러 에이전트에 작업을 나눠 줄 수 있다"며 이를 통해 에이전트들이 "협업하고 작업을 더 빨리할 수 있다"고 설명했다.

이 기능이 최근 클로드가 선보여 SW 관련 기업의 주가를 폭락시켰던 '클로드 코워크'와 결합하면 파급력이 배가될 것으로 추정된다.

복잡다단한 작업에 사용됐던 SW의 기능까지 여러 AI 에이전트가 대체할 수도 있기 때문이다.

화이트 총괄은 "개발자가 아닌 사람들도 단지 작업 수행 능력을 보고 클로드 코드를 많이 이용한다는 점을 확인했다"면서 자사 AI 모델 이용자들이 제품관리자, 금융분석가 등 다양한 영역에 퍼져 있다고 설명했다.

실제로 앤트로픽이 공개한 벤치마크 점수를 보면 오퍼스 4.6은 코딩뿐 아니라 지식 노동 분야에서 경쟁사들을 압도하는 성능을 보였다.

이미지 확대 앤트로픽이 공개한 인공지능(AI) 모델별 '인류의 마지막 시험'(HLE) 점수. [앤트로픽 제공. 재판매 및 DB 금지]

앤트로픽이 공개한 인공지능(AI) 모델별 '인류의 마지막 시험'(HLE) 점수. [앤트로픽 제공. 재판매 및 DB 금지]

사무업무 능력을 평가하는 'GDPval-AA' 지표에서 1천606점을 기록해 오픈AI의 GPT-5.2(1천462점)와 구글 제미나이3 프로(1천195점)를 넘어섰다.

오픈AI가 지난해 공개한, 정보 검색 능력을 측정하는 벤치마크 '브라우즈컴프'(BrowseComp)에서도 오퍼스 4.6은 84%의 성과를 보여 GPT-5.2(77.9%)·제미나이3 프로(59.2%)를 능가했다.

코딩 능력을 측정하는 'SWE-벤치 베리파이드' 점수는 80.8%로 이전 버전의 80.9%보다 미세하게 떨어졌지만, 여전히 GPT-5.2나 제미나이3 프로보다는 높았다.

분야별 전문가급 문제들을 모아 '인류의 마지막 시험'으로 불리는 HLE 점수도 현존 AI 모델 중 처음으로 도구 미사용 기준 점수 40%를 달성했다.

한 번에 입력할 수 있는 데이터양을 100만 토큰(AI 모델의 입출력 단위)으로 늘려, 책 수십 권 분량의 데이터를 입력받아 처리할 수 있도록 했다.

또 마이크로소프트(MS)의 엑셀과 파워포인트에 클로드를 통합해 AI가 데이터 분석부터 프레젠테이션 생성까지 처리하는 기능도 추가됐다.

오퍼스 4.6은 이날부터 사용할 수 있다. 개발자들이 사용하는 API 가격도 이번 버전과 마찬가지로 100만 토큰당 5∼25달러로 유지됐다.

comma@yna.co.kr

제보는 카카오톡 okjebo <저작권자(c) 연합뉴스, 무단 전재-재배포, AI 학습 및 활용 금지> 2026년02월06일 04시30분 송고

Read Entire Article