호출 예약
호출 내역
추천 내역
신고
  1주일 보지 않기 
카카오톡 공유
https://instiz.net/pt/7725753주소 복사
   
 
로고
인기글
필터링
전체 게시물 알림
이슈·소식 유머·감동 정보·기타 팁·추천 할인·특가 고르기·테스트 뮤직(국내)
이슈 오싹공포
혹시 미국에서 여행 중이신가요?
여행 l 외국어 l 해외거주 l 해외드라마
l조회 15861
이 글은 8개월 전 (2025/4/24) 게시물이에요

20일 테크크런치는 오픈AI의 사내 벤치마크인 ‘퍼슨(Person) QA’ 평가 결과를 인용해, o3 모델이 33%의 질문에 대해 환각을 일으켰다고 보도했다. 이는 o1(16%)과 o3 미니(14.8%)보다 두 배 이상 높은 수치다. 더 심각한 것은 o4 미니다.
이 모델은 무려 48%의 환각률을 기록하며 GPT-4o를 포함한 기존 모델들보다도 더 불안정한 모습을 보였다.

오픈AI는 지난 16일, 이들 모델을 “이미지를 사고 과정에 통합할 수 있는 최초의 모델”이라고 소개하며 출시했다. 단순히 이미지를 인식하는 것을 넘어, 시각 정보 자체를 추론 과정에 활용할 수 있다는 설명이다. 실제로 o3와 o4 미니는 사용자가 올린 화이트보드 그림, 도표, 그래프 등을 분석하고, 흐릿하거나 회전된 이미지도 처리할 수 있는 능력을 갖췄다.

성능 측면에서도 코딩 관련 벤치마크인 SWE 테스트에서 o3는 69.1%, o4 미니는 68.1%를 기록해, 이전 모델인 o3 미니(49.3%)는 물론, 경쟁 모델인 클로드 3.7 소넷(62.3%)보다도 높은 수치를 보였다. 하지만 이러한 기술적 진보에도 불구하고, 환각률은 오히려 이전보다 증가했다. 그동안 새로운 모델이 출시될 때마다 환각 문제는 점진적으로 개선되어 왔다는 점에서, 이번 결과는 이례적이라는 지적이 나온다.


https://www.fnnews.com/news/202504201250325892

 

 

대표 사진
Sdhjkgjyyst
관련 내용을 도표나 시각적 요소로 표현해달라고 했을때 거의 5개 중에 3개는 틀리게 나온거같아요
8개월 전
대표 사진
jeongin
작은 성장통을 겪을뿐이라고 봅니다
8개월 전
대표 사진
Ambitious
현재까지는 너무 맹신하면 안되는거같아요 공식이나 화학원리 반대로 이야기하는경우가 많음
8개월 전
대표 사진
S7U9
2222 맞아요 저도 과제할때 많이 써봤는데 너무 맹신은 아닌것같아요
8개월 전
대표 사진
이 훈 이  답댓을달지않는건 가치가없기때문
해봤자 저녁 메뉴 골라줘 정도로밖에 안쓰고있어서..
8개월 전
대표 사진
고운눈
조금만 써봐도 맹신할만한 ai는 아니라는 거 알텐데..
8개월 전
대표 사진
내로남불
싸워서 경쟁해라
8개월 전
대표 사진
익인213458789
그렇군요하하
8개월 전
대표 사진
boli
하지만 이미 업계에서 많이 활용되고 있죠 쓰는 사람 나름인듯요
8개월 전
대표 사진
현생찾아서
그래서 항상 물어보면서 출처랑 출처 링크까지 같이 물어봐요
8개월 전
대표 사진
멍게
완벽한 대체는 없죠..
8개월 전
대표 사진
안댕댕
사용자의 지식이 뒷받침되면 굿
8개월 전
   
로그인 후 댓글을 달아보세요


이런 글은 어떠세요?

전체 HOT댓글없는글
최근 인피니트 엘 성열 얼굴 근황251
04.26 22:12 l 조회 122469 l 추천 88
역대급이었다는 엄마 패고 왕따시키는 이번 금쪽이.jpg1
04.26 22:11 l 조회 3471
해맑게 무례한 부잣집 딸 후배
04.26 22:07 l 조회 1772
요즘 절밥 근황6
04.26 22:00 l 조회 11653
개쩌는 여름사진 찍는 법75
04.26 21:59 l 조회 127128 l 추천 8
오늘자 역대급으로 인상된 반클리프 가격25
04.26 21:49 l 조회 60549
말차맛 신상1
04.26 21:43 l 조회 2457
가장 완벽하다고 생각하는 바나나는?.jpg89
04.26 21:41 l 조회 31847 l 추천 1
아빠가 주운 지갑으로 배달음식 시켜먹자는거야8
04.26 21:39 l 조회 15567
확실히 다른 한중일 나라별 왕자 관상.twt1
04.26 21:39 l 조회 6363
"당신, 혈액암 같아요"…의사는 틀렸는데 챗GPT는 맞혔다61
04.26 21:39 l 조회 80280 l 추천 4
"차에 지문 남겨라" 우버서 끔찍한 경험담…예상밖 경고 쏟아졌다1
04.26 21:38 l 조회 12330
케이크 가게 하려면 미대가야하는 이유.jpg23
04.26 21:37 l 조회 57740 l 추천 22
난임카페 회원들에게 온다는 쪽지의 정체29
04.26 21:28 l 조회 81302
강남 테슬라 사이버트럭에 발길질 남성, 중국인 관광객이었다1
04.26 21:19 l 조회 1438
동거하는데 비혼주의자라고 할 수 있다 vs 없다2
04.26 21:15 l 조회 1413
요즘 MZ들 진짜 쉽지않다.blind18
04.26 21:10 l 조회 56331 l 추천 4
새멤버 영입했는데 유난히 눈에 띈다는 여자아이돌
04.26 20:56 l 조회 2190
밖으로 나온 로봇청소기2
04.26 20:48 l 조회 2822
합격률 92.8%였던 전설의 레전드 시험3
04.26 20:44 l 조회 17184


처음이전3131132133134135다음
이슈
일상
연예
드영배
11:30