정보글) 딥시크 보다 충격적인 AI 등장 > 자유게시판

본문 바로가기

자유게시판

정보글) 딥시크 보다 충격적인 AI 등장

본문

 
선 요약
- Open AI 에서 딥 리서치 라는 AI모델을 발표함.
- 딥 리서치 는 고도로 숙련된 논리구조의 논문을 완성하거나 어려운 문제를 해결하는데 특화된 전문가 역할을 하는 모델을 목표로 구현됨
- 논리구조가 완벽한 논문을 30분내로 만들어내는 역할을 하는데 다른 교수들이 검증해도 논리에 허점이없음
- 인류 최후의 시험(HLE) 에서 최고 수준인 26.6%의 정답률을 받음. 딥시크의 R1(9.4%)과 비교해 약 3배 높음
 
 
이번에 Open AI에서 새로운 AI모델 딥 리서치를 출시했음.
 
이건 기존에 빠른 대답을 해주는 대화형 AI가 아니라 어려운 문제 논문 같은걸 작성하는데 특화된 전문가 영역에서의 논리구조를 이해하고 만들어내는데 특화된  AI였음.
 
타일러 코웬 조지메이슨대 경제학과 교수는 딥리서치에 ‘리카도의 지대론’을 주제로 10쪽 분량의 보고서 작성을 맡겼더니 6분 만에 완성한 결과물에서 오류를 발견하지 못했다고 자신의 블로그에 평가를 남겼다.고 함
 
리카도 지대론은  지주와 소작농 사이에 발생하는 자본주의적 동작기작에 대한 설명을 하는 이론이라고 위키에 적어놨는데 읽으면서도 걍 무슨소린지 제대로 이해한 부분이 없는 수준임..
 
 
AI에 대해서 AI의 성능이 인간 전문가 영역 혹은 그 수준으로 도달했는지 알아보는 테스트가 있음.
 
흔히 알려져있는 튜링테스트 의 경우 상대방이 인간인지 AI인지 구분할수있는 테스트 방식을 이야기하고
 
이미 10년전에 구글이 AI 비서 로 미용실 예약하고 이런걸 실시간으로 보여주면서 튜링테스트 통과한 그런 언어모델들은 이미 수없이 많이 나와있는 상태임.
 
저런 튜링테스트와 다르게 HLE(Human's Last Exam) 인류 최후의 시험 을 만들었음.
 
전 세계 50개국 500개 이상의 기관에서 약 1,000명의 전문가가 참여했다.
7만 개의 시험 문항 중 1.3만 개가 전문가 검토를 거쳐 최종 3,000개의 문항이 선정되었다
수학, 자연과학, 인문학 등 광범위한 분야를 아우르는 전문가급 문제들로 구성되었다
 
 
최신 AI 모델들도 전문가급 문제의 10% 미만만 정확히 답변할 수 있었다.
GPT-4o, Claude 3.5 Sonnet, Gemini 1.5 Pro, OpenAI o1 등 최신 모델들이 테스트를 받았다.
 
라고 결과가 나와있음.
 
 
해당 HLE에 대한 특집기사도 나왔는데 대표적인게 아래 뉴욕타임즈 와 로이터에서 나온 기사임
 
뉴욕타임즈에서 특집기사로 나온 제목이 AI가 이 테스트를 통과하면 조심하세요.
https://www.nytimes.com/2025/01/23/technology/ai-test-humanitys-last-exam.html
 
로이터 에서는 AI를 난처하게 만들기위해 전문가들이 인류 최후의 질문을 준비했습니다.
https://www.reuters.com/technology/artificial-intelligence/ai-experts-ready-humanitys-last-exam-stump-powerful-tech-2024-09-16/
 
라는 특집기사를 낸적이있음.
 
저 기사의 핵심은 AI가 인류 전문가들이 만들어낸 어려운 문제를 풀어낼수있을만큼 성능이 높은가를 시험하기 위해 만든거였고..
당연히 평범한 학문과 거리가 먼 사람들은 질문이 뭔지도 이해조차 못하는 그런 문제를 냈었음.
 
저런식의 문제에 대한 답을 AI에게 요구했을때 대부분 10% 미만의 정답률을 냈었는데..
 
이번에 발표된 딥 리서치 는 왠만한 인간들보다 높은 26.6%의 정답률을 보임.
 
왠만한 인간들 보다 높다고 하는 이유는 각 분야의 전문가들이 각자의 분야에서 어려운 문제를 냈기때문에
그 분야가 아닌걸로 넘어가면 아무리 박사 수준의 전문가 라고 하더라도 자기분야에서 정답을 찾을수있을뿐이지 그외 분야에서는 제대로 답을 할수없기때문 이기도 하고.
 
문제가 너무 어려워서 해당분야에 전문가 지식이 있다고 하더라도 못푸는 경우도 많기 때문임.
 
 
해당 문제 소개기사.
https://www.ainet.link/18575
 
 
 

댓글목록0

등록된 댓글이 없습니다.
전체 1,942 건 - 1 페이지
번호
제목
글쓴이
게시판 전체검색