올해 Google I/O OU 2025에는 인공 지능이 한 가지 초점이있었습니다.
우리는 이미 연례 개발자 컨퍼런스를 떠나기 위해 가장 큰 뉴스를 모두 조사했습니다. AI $ 250에 대한 구독 계획. 쌍둥이의 새로운 변화 톤. 구매 시도의 가상 기능. 그리고 비판적으로, 미국의 모든 사용자를위한 AI 검색 엔진의 출시.
그럼에도 불구하고, 구글의 지도자들이 인공 지능에 대해 2 시간 이상 동안 우리가 듣지 못한 단어는“환각”이었다.
환각은 AI 모델의 가장 완고한 문제 중 하나이며 AI 모델의 문제 중 하나입니다. 이 용어는 대규모 모델이 대답에 “환각”하는 발명 된 사실과 부정확성을 말합니다. 그리고 큰 AI 브랜드 지표에 따라 환각이 악화됩니다. 40 % 이상의 사례가 일부 모델로 환각됩니다.
그러나 Google I/O 2025를 본 경우이 문제가 존재한다는 것을 알지 못할 것입니다. Gemini와 같은 모델은 절대로 환각되지 않을 것이라고 생각할 수도 있습니다. Google AI의 각 검토에 추가 된 경고가 추가되는 것을보고 놀랄 것입니다. ( “AI 답변에는 오류가 포함될 수 있습니다.”)
흔들리는 빛의 속도
가장 가까운 Google은 AI의 프리젠 테이션 세그먼트에서 환각 문제와 쌍둥이의 깊은 검색 기능을 인식했습니다. 이 모델은 답변을하기 전에 자체 작업을 확인할 것이지만,이 과정에 대한 자세한 정보가 없으면 사실에 대한 진정한 검증보다 맹인과 비슷합니다.
AI의 회의론자들에게,이 기기의 실리콘 계곡에 대한 신뢰도는 실제 결과와의 이혼에 대해 제시됩니다. 실제 사용자는 인공 지능 도구를 계산, 철자 확인 또는 “화씨 27도에서 자유롭게 물을 뿌린다”와 같은 질문에 대한 답변과 같은 간단한 작업을 통과하지 못하는 경우를 알 수 있습니다.
Google은 관객에게 최신 인공 지능 모델 인 Gemini 2.5 Pro가 많은 AI 리더에 위치하고 있음을 상기 시키려고 노력했습니다. 그러나 진실성과 간단한 질문에 대답하는 능력에 관해서는 AI의 채팅 봇은 곡선으로 평가됩니다.
Gemini 2.5 Pro는 Google의 가장 지능적인 모델 (Google에 따라)이지만 간단한 기능과 비교하기 위해 반죽의 52.9 % 만 얻습니다. OpenAi Research 기사에 따르면 SimpleQA 테스트는“평가하는 표준입니다. 언어 모델이 짧게 대답하고 질문을 찾는 능력.“(우리의 강조.)
Google 담당자는 SimpleQA 또는 환각의 통제 지표에 대해 전체적으로 논의하기를 거부했지만 인공 지능 모드 및 인공 지능 검토에서 Google에 대한 공식 설명을 우리에게 표시했습니다. 그가 말해야 할 내용은 다음과 같습니다.
[AI Mode] 그는 큰 언어 모델을 사용하여 요청에 응답하는 데 도움이되며, 드문 경우에는 때때로 “환각”이라고 불리는 부정확 한 정보를 자신있게 나타낼 수 있습니다. 인공 지능 검토의 경우와 같이, 경우에 따라이 실험은 웹 컨텐츠를 잘못 해석하거나 컨텍스트를 건너 뛸 수 있습니다.
우리는 또한 실제 수명을 향상시키기 위해 모델 모델링 가능성과 함께 새로운 접근법을 사용하고 있습니다. 예를 들어, Google DeepMind Research Groups와 협력하여 사용자 교육에 에이전트 교육 (RL)을 사용하여 모델에 보상하여 알고 있듯이 더 정확하고 (Hallucked가 아닌) 입력 데이터에 의해 지원되는 진술을 작성합니다.
Google은 낙관적이기 때문에 잘못 되었습니까? 결국, 환각은 해결 될 수 있습니다. 그러나 연구에서 LLM의 환각은 해결 된 문제가 아니라는 것이 점점 더 분명합니다. 지금 바로필드
이것은 인공 지능 검색의 시대로 넘어 가기 위해 Google 및 Openai와 같은 회사를 방해하지 않았으며, 이는 우리가 환각하는 경우 시대 오류로 채워질 것입니다.
테마
인공 지능 Google Gemini