OpenAI Deep Research a obținut un rezultat record în cel mai dificil „Ultimul examen al umanității”
Data: 05.02.2025, 18:07
Autor: Pavel Kotov
Cu mai puțin de două săptămâni în urmă, experții în domeniul inteligenței artificiale au prezentat un test extrem de complex Humanity's Last Exam, destinat evaluării rețelelor neuronale avansate. Lista liderilor în această probă a fost condusă de două proiecte OpenAI: o3-mini și Deep Research.
Benchmark-ul, creat de experți din întreaga lume, conține întrebări și sarcini extrem de dificile referitoare la cunoștințe și raționamente — chiar și unii oameni nu pot înțelege anumite întrebări din el, cu atât mai puțin să ofere răspunsuri. La scurt timp după lansare, lista liderilor la examen a fost condusă de modelul de raționare AI DeepSeek R1, care a dat 9,4% răspunsuri corecte. Au reușit să o depășească modelele OpenAI o3-mini cu un rezultat de 10,5% și o3-mini-high, care a obținut 13% — ultima este într-adevăr mai puternică, dar funcționează și mai lent.
Cel mai impresionant rezultat a fost obținut de agentul AI OpenAI Deep Research, care a obținut 26,6%, bătând astfel anteriorul în mai puțin de 10 zile.
Comparația nu este complet corectă, deoarece Deep Research are capacitatea de a căuta informații, iar modelele tradiționale de AI nu dispun de aceasta. În cadrul Humanity's Last Exam, această capacitate este critică, deoarece unele întrebări vizează verificarea cunoștințelor. Totuși, sistemele AI își îmbunătățesc constant rezultatele, ceea ce ridică întrebarea când una dintre ele va susține examenul cu nota maximă. OpenAI Deep Research este un instrument extrem de puternic, destinat să funcționeze ca un analist personal. Acesta efectuează cercetări, întocmește rapoarte și pregătește răspunsuri la care unei persoane i-ar lua câteva ore.
Sursa: TechRadar