Umelá inteligencia sa stala bežnou súčasťou výučby, práce aj každodenného života, no stále má slabinu v podobe tzv. halucinácií. Ide o situácie, keď chatbot odpovie sebavedomo, no úplne nesprávne. OpenAI spolu s Georgia Tech preto pripravili štúdiu, ktorá vysvetľuje, že problém nespočíva v samotnom návrhu modelov, ale v spôsobe, akým sa hodnotia.
Doterajšie testy totiž odmeňujú systémy za to, že odpovedajú na všetko, aj keď často nesprávne. Modely, ktoré sa zdržia odpovede alebo priznajú neistotu, naopak strácajú body. Výskumníci preto navrhujú prevrátiť systém hodnotenia. Sebavedomé, ale nesprávne odpovede by sa mali hodnotiť prísne negatívne, zatiaľ čo opatrnosť a priznaná neistota by mali byť ocenené.