Megérkezett a ChatGPT új képgenerátora, ami már képfeliratokkal is jól elboldogul

Új képgenerátort kapott a ChatGPT – jelentette be kedden az OpenAI, ami a cég ígérete szerint az eddigi modellnél sokkal használhatóbb képeket készít, és képfeliratokkal is jól elboldogul.
A ChatGPT alapmodelljébe, a 4o-ba épített képgenerátort magyar idő szerint kedd este maga Sam Altman, az OpenAI vezérigazgatója mutatta be. „Ez az egyik legszórakoztatóbb és legmenőbb dolog, amit valaha bejelentettünk” – mondta Altman, aki szerint a képgenerátort régóta fejlesztik már azzal a céllal, hogy a diákok, tanárok, kreatív dolgozók, kisvállalkozók olyan új dolgokat tudjanak csinálni a mesterséges intelligenciával, amire korábban nem volt lehetőségük.

A bemutató során Altman és munkatársai a ChatGPT-nek megadott prompt segítségével legeneráltak több képet. Az egyik úgy néz ki, mintha saját szemszögükből készült volna az őket filmező stábról és az előttük lévő asztalról, amire a képgenerátor egy A4-es papírt helyezett el, rajta a bemutató vázlatos adástervével.

„Ez egy jelentős előrelépés a korábbi modellekhez képeset” – mondta el a fejlesztést vezető Gabriel Goh a Verge-nek. Az egyik legnagyobb változás a DALL–E 3 képgenerátorhoz képest az, hogy a modell végre nagyobb hibák nélkül képes feliratokat készíteni. Emellett fotorealisztikus képekkel és komplexebb feladatokkal is elboldogul, így például használható lehet egyszerűbb tudományos ábrák elkészítésére. Viszont lényegesen lassabb is az elődjénél, így adni kell neki 1-2 percet, amíg lefuttatja kérésünket.

Az új modell hamarosan minden ChatGPT felhasználónak elérhető lesz, köztük azoknak is, akik a szolgáltatást ingyenesen használják. A ChatGPT által generált képeken ezután sem lesz AI-vízjel, de a fájl metaadatai tartalmazni fogják, hogy a képet az OpenAI hozta létre.
Nem ez volt az egyetlen kedden bejelentett AI-újdonság. Néhány órával korábban a Google mutatta be a Gemini 2.5 Pro modelljét. Ez több teszten is lekörözi az OpenAI jelenlegi legjobb modelljeit, a GPT–4.5-öt, valamint az o3-mini „gondolkodó” modellt. Az egyelőre csak a Google AI Studio-ban elérhető, kísérleti modell nemcsak, hogy több teszten lekörözi a ChatGPT-t, hanem jóval hosszabb, akár 750 ezer szavas promptokat is képes kezelni.
Miközben a Google már az OpenAI legfejlettebb, publikusan csak a Deep Research funkcióban elérhető o3 modelljének képességeit közelíti és más versenytársak is kezdik beérni a ChatGPT-t, Altman cége sem tétlen: néhány hónapon belül jöhet a GPT–5, ami egy fejlett alapmodellt kombinál majd egy érvelő modellel, egyszerűbbé téve a világ legnépszerűbb chatbotjának használatát.
Kapcsolódó cikkek a Qubiten: