
크레딧 : Pixabay/CC0 퍼블릭 도메인
Uve Peters (Utrecht)와 Benjamin Chin-Yi (Utrecht)와 Benjamin Chin Yi (Utrecht)와 Benjamin Chin Yi (Utrecht) 및 Benjamin Chin-Yi의 연구에 따르면 Chatgpt 및 Deepseek과 같은 대규모 언어 모델 (LLMS)의 합의에도 불구하고, 그들은 73%의 비정상적으로 결론을 내립니다. 연구원들은 가장 눈에 띄는 LLM을 테스트하고 Chat-Botom이 만든 수천 개의 과학 이력서를 분석하여 대부분의 모델이 요약 된 텍스트보다 끊임없이 더 넓은 결론을 내 렸음을 보여줍니다.
놀랍게도 정확도에 대한 힌트는 문제를 증가시키고 새로운 LLM은 노인보다 나쁩니다.
작업은 저널에 게시됩니다 왕립 학회의 공개 과학필드
LLM에 의해 생성 된 거의 5000 개의 이력서가 분석됩니다
이 연구는 Chatgpt, Deepseek, Claude 및 Llama를 포함하여 정확히 10 개의 주요 LLM이 주요 과학 및 의료 저널 (예 : 과학 및 의료 저널)의이 논문과 전체 크기의 기사를 어떻게 요약하는지 평가했습니다. 자연안에 과학그리고 랜싯) 1 년 동안 LLM을 테스트 한 연구원들은 LLM에 의해 생성 된 4900 개의 이력서를 수집했습니다.
10 개의 모델 중 6 개 모델은 원래 텍스트에서 발견 된 주장을 체계적으로 과장하여 종종 얇지 만 효과적인 방법으로 과장했습니다. 예를 들어,“치료는 효과적”과 더 넓고 실제적인 버전에 대해“치료가 효과적이었다”와 같은 과거의 신중한 주장의 변화는“이 연구에서 효과적이었습니다”. 이러한 변화는 독자들을 오도 할 수 있으며, 결과가 실제보다 훨씬 더 넓어 졌다고 믿는 독자들을 오도 할 수 있습니다.
힌트의 정확성은 불쾌한 결과를 초래합니다
모델이 부정확성을 피하기 위해 명확하게 자극 한 것은 놀랍습니다. 간단한 간단한 요청을 제공 할 때보 다 과도한 일반화 된 결론을 도출하는 것이 거의 두 배나 자주있었습니다.
피터스는“이것은 문제가 발생합니다. “학생, 연구원 및 정치인들은 Chatgpt에게 부정확성을 피하기 위해 요청하면보다 신뢰할 수있는 이력서를 받게 될 것이라고 가정 할 수 있습니다. 우리의 결론은 그 반대임을 증명합니다.”
사람들이 더 잘합니까?
Peters와 Chin Yi는 또한 챗봇을 동일한 기사의 서면 인간 이력서와 직접 비교했습니다. 갑자기, 채팅 봇은 인간 동료들보다 광범위한 일반화를하기 위해 거의 5 배나 더 자주있었습니다.
Peters는“불안한 AI 모델은 Chatgpt-4o 및 Deepseek와 같은 새로운 AI 모델이 노인보다 더 나빠졌습니다.”라고 말했습니다.
위험 감소
연구원들은 일반화의 가장 높은 정확도를 가진 Claude와 같은 LLM을 사용하고, 채팅 봇을“온도”(챗봇의“창의적 잠재력”을 수정하는 매개 변수)를 설정하고 과학 요약에서 간접적 인 과거 보고서를 준수하는 팁을 사용하는 것이 좋습니다.
Peters는“AI가 과학적 문해력을 지원하고 그것을 훼손하지 않기를 원한다면 과학적 커뮤니케이션의 맥락에서 이러한 시스템에 대한 더 많은 경계와 테스트가 필요하다”고 말했다.
추가 정보 :
Uwe Peters and Co -Authors, 과학 연구의 대형 언어 모델의 모델에서 일반화의 변위, 왕립 학회의 공개 과학 (2025). doi : 10.1098/rsos.241776
Utrekhtsky University에서 제공합니다
소환: 뛰어난 챗봇은 일반적으로 과학 결과를 과장하여 2025 년 5 월 13 일에받은 연구에 따르면 (2025, 5 월 13 일) 보여줍니다.
이 문서는 저작권이 적용됩니다. 개인 연구 나 연구 목적으로 공정한 거래 외에도 서면 해결 없이는 어떤 부분도 재현 할 수 없습니다. 내용은 정보 목적으로 만 제공됩니다.