Google traint AI-model met 1,6 biljoen parameters
Het trainen van modellen met een simpele architectuur op grote hoeveelheden trainingsdata met een grote hoeveelheid parameters, is volgens de Google-onderzoekers (pdf) de meest effectieve manier om krachtige taalmodellen te creëren. Hun effectiviteit is veel groter dan modellen met een complexe opbouw. Het nadeel van het trainen op extreem grote datasets heeft als nadeel dat het veel computerkracht koste en dus ook veel energie.
De Google-onderzoekers hebben daarom een nieuwe tactiek toegepast die ze 'Switch Transformer' hebben genoemd. Kort door de bocht wordt steeds gebruik gemaakt van slechts een deel van het model ofwel de parameters die de input data omzetten in het model. Op die manier ontstaan in het model verschillende 'experts', delen van het model die zijn gespecialiseerd in verschillende taken. Een netwerk van poorten (gating network) zorgt ervoor welke 'experts' in het model worden aangesproken voor verwerking van data.
Werklast verdelen
Deze gedistribueerde aanpak past goed bij het gebruik van hardware die speciaal is ontwikkeld voor massale parallelle verwerking zoals de door Google ontwikkelde Tensorflow Processing Unit (TPU) maar ook de meer algemene grafische chips (GPU's) die daarvoor worden ingezet. Op die manier kunnen de verschillende experts verdeeld worden over meerdere apparaten waardoor het benodigde geheugen en rekencapaciteit per apparaat beheersbaar blijft.
Google claimt nu dat zijn Switch-C-model met 1,6 biljoen parameters en 2048 'experts' veel stabieler is dan eerdere modellen.
Reacties
Om een reactie achter te laten is een account vereist.
Inloggen Word abonnee