일반적으로 오류는 생성 된 내용에 나타납니다. 폴 테일러/게티 이미지
OpenAi 및 Google과 같은 기술 회사의 AI의 채팅 봇은 지난 몇 달 동안 소위 추론 업데이트를 받았으며, 우리가 신뢰할 수있는 답변을 제공하는 데 더 나은 것으로 만들어졌지만 최근의 테스트는 때때로 이전 모델보다 더 나쁘다는 것을 시사합니다. “환각”으로 알려진 봇의 실수는 처음부터 문제였으며, 우리가 절대 제거 할 수 없다는 것이 분명해집니다.
환각은 CATGPT 또는 Google의 Gemini와 같은 에너지 시스템 인 LLM (Lange Language Models)에 의해 만들어진 특정 유형의 오류에 대한 일반적인 용어입니다. 그것은 때때로 거짓 정보를 진실로 표현하는 방법에 대한 설명으로 가장 유명합니다. 그러나 이것은 또한 실제로 정확한 교육받은 AI 답변과 관련이있을 수 있지만 실제로는 질문이 있거나 다른 방식으로 지침을 따르지 않았다는 질문과 관련이 없습니다.
최신 LLM을 평가 한 OpenAI의 기술 보고서에 따르면 4 월에 출시 된 O3 및 O4-MINI 모델은 2024 년 말에 출시 된 이전 O1 모델보다 환각이 상당히 높았다는 것을 보여주었습니다. 예를 들어, 사람들에 대한 공개 사실을 일반화 할 때 O4-MINI 가이 48 개가이 시간 가격을 현장에 올렸을 때 환각을 받았습니다. 비교를 위해, O1은 환각 수준 16 %를 가졌다.
문제는 OpenAI에 국한되지 않습니다. 환각을 평가하는 인기있는 Vectara Leaders 테이블에서 DeepSeek 개발자의 DeepSeek-R1 모델을 포함한 일부“추론”모델을 나타냅니다. 환각의 2 자리 증가는 개발자의 이전 모델과 비교하여 관찰되었습니다. 이 유형의 모델은 답변 전에 추론 목록을 보여주기 위해 몇 단계를 수행합니다.
Openai는 추론 과정이 비난을받지 않는다고 말합니다. Openai 대표는“환각은 본질적으로 추론 모델에서 더 일반적이지 않지만, 우리는 O3 및 O4-MINI에서 본 환각을 줄이기 위해 적극적으로 노력하고있다”고 말했다. “우리는 정확성과 신뢰성을 높이기 위해 모든 모델에서 환각에 대한 연구를 계속할 것입니다.”
환각에 의해 LLM에 대한 잠재적 인 응용 프로그램이 중단 될 수 있습니다. 순차적으로 거짓말을 나타내고 사실을 검증 해야하는 모델은 연구 조교에게 유용하지 않습니다. 상상의 사례를 언급하는 수용자는 변호사를 곤경에 빠뜨릴 것입니다. 구식 정치인이 여전히 활동적이라고 주장하는 고객 서비스 에이전트는 회사를위한 두통을 만들 것입니다.
그럼에도 불구하고 AI 회사는 처음 에이 문제가 시간이 지남에 따라 제거 될 것이라고 주장했다. 실제로, 처음 출시 된 후, 모델은 각 업데이트마다 환각을 제한하는 경향이있었습니다. 그러나 최근 버전의 환각에 대한 높은 지표는 추론이 비난하는지 여부에 관계 없이이 이야기를 복잡하게한다.
Vectara 리더 테이블은 그들이 제공하는 문서를 요약 할 때 실제 순서를 기반으로 모델을 차지합니다. Vectara의 Forrest Shen Bao는“환각은 번식과 관련이없는 모델과 비교하여 추론에 대해 거의 동일하다”고 밝혔다. Google은 추가 의견을 제공하지 않았습니다. BAO에 따르면, 리더 테이블의 목적 상, 특정 환각은 각 모델의 전체 등급보다 덜 중요합니다.
그러나이 등급은 AI 모델을 비교하는 가장 좋은 방법이 아닐 수도 있습니다.
첫째, 이것은 다양한 유형의 환각을 결합합니다. Vectara 팀은 DeepSeek-R1 모델이 14.3 %에서 환각되었지만 대부분은“양성”이었지만 실제로 논리적 추론이나 세계 지식에 의해 실제로 뒷받침되는 답은 봇이 요약 한 원본 텍스트에 실제로 존재하지 않았다고 언급했습니다. DeepSeek은 추가 의견을 제공하지 않았습니다.
이런 종류의 순위의 또 다른 문제는 텍스트 일반화를 기반으로 테스트하는 것이“잘못된 출구의 속도에 대해 아무 말도하지 않는다는 것입니다. [LLMs] 워싱턴 대학교의 에밀리 벤더 (Emily Bender)는 말합니다. LLM은 텍스트를 요약하도록 특별히 설계되지 않았기 때문에 리더 테이블의 결과 가이 기술을 판단하는 가장 좋은 방법이 아닐 수도 있다고 말합니다.
이 모델들은 팁에 대한 답변을 공식화하기 위해“다음 단어 일 가능성이있는 것”이라는 질문에 반복적으로 대답하므로 텍스트 그룹에서 어떤 정보를 사용할 수 있는지 이해하려는 시도의 일반적인 의미에서 정보를 처리하지 않습니다. 그러나 많은 기술 회사는 여전히 출력 오류를 설명 할 때 여전히 “환각”이라는 용어를 사용합니다.
벤더는“한편으로는이 용어로서의 환각”은 두 배로 문제가된다. 반면에, 그것은 의인화에 효과적이지 않습니다. [and] 큰 언어 모델은 아무것도 인식하지 못합니다. ‘
프린스턴 대학교의 Arvind Narayan 은이 문제가 환각을 넘어서고 있다고 말합니다. 모델은 때때로 신뢰할 수없는 출처 또는 구식 정보의 사용과 같은 다른 실수를합니다. 그리고 AI에서 이러한 훈련과 컴퓨팅 능력의 간단한 던지기가 반드시 도움이되지는 않았습니다.
결과적으로 AI 오류로 살아야 할 수도 있습니다. Narayan은 소셜 네트워크에 대한 게시물에서 어떤 경우에는 해답으로 사실을 확인할 때 해당 모델 만 사용하는 것이 가장 좋을 것이라고 말했다. 그러나 가장 좋은 단계는 실제 정보를 제공하기 위해 인공 지능의 채팅 봇에 의존하는 것을 완전히 피할 수 있다고 Bender는 말합니다.
주제 :