Scorebord voor AI-hallucinaties, GPT4 versus Llama en andere concurrenten
Search-aanbieder Vectara heeft een opensourcemodel gemaakt om het hallucinatiegehalte van genAI's te meten en publiceert de resultaten in een ranglijst. Het gaat erom hoe vaak een groot taalmodel (large language model, LLM) hallucineert bij het samenvatten van een document. GPT4 van OpenAI staat er goed voor.
Het Hallucination Evaluation Model van Vectara is openlijk beschikbaar op ontwikkelplatform GitHub. Daar valt nu de eerste editie te zien van het Public LLM leaderboard. Vectara doet daarbij de toezegging dat het deze ranglijst op regelmatige basis zal bijwerken, naar gelang de LLM's worden doorontwikkeld én ook het evaluatiemodel zelf wordt verfijnd.
Vragen beantwoorden over AI-gemaakte samenvatting
Op nummer één staat nu GPT4, dat opvallend weinig hallucineert. Deze nieuwste LLM van OpenAI haalt een accuraatheid van 97%, dus komt voor slechts 3% met eigen verzinsels. Op nummer twee staat GPT3.5 met 96,5%, gevolgd door Llama 2 70B (dus de Llama 2-variant die is getraind op zeventig miljard parameters). Opvallend is dat op nummer vier Llama 2 7B staat en op vijf Llama 2 13B. De hoeveelheid parameters lijkt dus niet bepalend te zijn voor het waarheidsgehalte.
De manier waarop Vectara het hallucineren in kaart brengt, gebeurt op basis van een tekstdocument. Die informatie wordt als input gegeven aan de diverse genAI's, met daarbij de opdracht om een accurate samenvatting te geven om daarna dan vragen te beantwoorden over die tekst. Alle antwoorden die informatie bevatten die niet in de oorspronkelijke tekst zit, zijn als hallucinatie te beschouwen. Hiermee ondervangt het bedrijf het probleem dat het voor de meeste genAI's niet bekend of duidelijk is op welke data ze zoal getraind zijn.
Reacties
Om een reactie achter te laten is een account vereist.
Inloggen Word abonnee