Az o3 újradefiniálja az MI-képesség határait

Sam Altman az OpenAI - a ChatGPT-t is fejlesztő vállalat - vezérigazgatója pénteken késő este bejelentette, elkészült legújabb “gondolkodó” modellcsalád, az o3, amely az o1-hez hasonlóan két verzióból, a legfejlettebb, és valószínűleg nagyon költséges o3-ból és az olcsóbban futtatható o3 mini-ből áll. „Az a tervünk, hogy az o3 mini-t január vége körül tesszük elérhetővé, míg a teljes o3 modellt nem sokkal utána” – mondta Altman. (Az o2 típusjelzést azért hagyták ki, mert ezen a néven (O2) létezik egy brit telefonszolgáltató.) A cég “privát gondolati láncnak” nevezi a módszert, ahogyan az o3 működik. Ez azt jelenti, hogy a modell szünetet tart és tervet készít mielőtt válaszolna. Ezt “szimulált következtetésnek” (SR) nevzik. Meg lehet határozni, hogy mennyit "gondolkodhat" egy adott feladaton, így gyorsabban használható, mint a korábbi modell, de természetesen minél több ideje van, annál pontosabb válaszokkal áll elő. Az új modell a GPT-4o-hoz és a legtöbb nagy nyelvi modellhez (LLM) képest jobban „átgondolják” a válaszaikat.

Az o3 az ARC-AGI teszeten az emberével csaknem azonos gondolkodási képességeket mutatott, először a mesterséges intelligenciák történetében. A mesterséges általános intelligencia (AGI) a MI-rendszerek olyan fejlett formája, ami képes önálló gondolkodásra, és a rendelkezésére álló adatok alapján új következtetések levonására, ezen keresztül pedig saját tudásának bővítésére is. Ez alapjaiban tér el az eddigi mesterséges intelligencia, illetve gépi tanulási megoldásoktól, amelyek lényegében csak a tanításukhoz használt adathalmazokban már eleve meglévő összefüggések és minták megismétlésére képesek, de teljesen új következtetések levonására nem. A mesterséges általános intelligencia képes lehet önmaga tanítására és fejlesztésére, amivel képességeit, illetve intelligenciája szintjét még tovább bővítheti.

Az ARC-AGI-tesztet 2019-ben kifejezetten a MI rendszerek általános intelligenciájának mérésére fejlesztettek ki. Ezen az o3 alacsonyabb számítási képességű hardverekkel rendelkező gépeken 75,7 pontot, a magas tudásúakon 85,7 pontot ért el. Az emberi szintnek 85 pont fölötti teljesítmény számít. Az o3 az Amerikai Meghívásos Matematikai Vizsgán még jobban szerepelt, 96,7 pontot ért el, a tizenöt kérdésből csak egyet rontott el. A modell 87,7 százalékot ért el a GPQA Diamondon is, amely diplomás szintű biológia, fizika és kémia kérdéseket (448 darab) tartalmaz.

Az EpochAI által Matematika Határa címmel összegyűjtött problémák 25,2 százalékát oldotta meg, az eddigi MI-k egyike sem nem tudott két százaléknál jobb eredményt elérni. Ez jelentős áttörést jelent.

Az OpenAI nem az egyetlen cég, amely SR-alapú mesterséges intelligenciát fejleszt, a Google múlt csütörtökön mutatta be a Gemini 2.0-át, a DeepSeek novemberben a DeepSeek-R1-et, míg az Alibaba Qwen a QWQ-t adta ki. Ezek mind a nagy nyelvi modellen alapulnak, de van bennük egy csavar: szinte brutálisan erőlteti, hogy az eddigieknél sokkal alaposabban vizsgálják meg a részeredményeket.

Sam Altman jelezte, hogy az o3 mini már január végén kijöhet, az o3 nem sokkal utána.

Az o3 újradefiniálja az MI-képesség határait

Az OpenAI bemutatta legújabb mesterségesintelligencia (MI)-fejlesztéseit, amelyek az emberéhez mérhető képességeket mutatnak.

Ötös lottó: ez a kétmilliárd most nem kerül a karácsonyfa alá, de legalább maradt esély egy nagyobbacska szilveszteri bulira