Twitter cropt foto’s met machine learning

Twitter zet machine learning in om te bepalen welk deel van de foto zichtbaar moet zijn als het beeld wordt bijgesneden. Deze nieuwe methode vervangt de methodiek van gezichtsherkenning die Twitter voorheen gebruikte.

Rian van HeurMeer van deze auteur

Beeld croppen op basis van gezichtsherkenning ging niet altijd goed, erkent Twitter in een blogpost. Deze methodiek legde de focus op het meest prominente gezicht in de foto, schrijft Twitter. “Hoewel dit geen onredelijke methode is, heeft de benadering duidelijke beperkingen omdat niet alle afbeeldingen gezichten bevatten. Bovendien miste onze gezichtsdetector vaak gezichten, of werden gezicht gedetecteerd terwijl er geen waren. Werden er geen gezichten gevonden, dan werd het midden van de afbeelding weergegeven.”

Daarom gaat Twitter nu aan de slag met een nieuwe methodiek die zich richt op beeldgebieden die de aandacht trekken wanneer mensen de foto bekijken. Naar deze gebieden wordt door wetenschappers onderzoek gedaan met onder andere eye-tracking. Uit die onderzoeken blijkt dat mensen vooral kijken naar gezichten, teksten, dieren, maar ook naar andere objecten en gebieden met een hoog contrast. Deze data wordt gebruikt om neurale netwerken en andere algoritmen te trainen in het voorspellen welke onderdelen voor mensen interessant zijn.

Real-time voorspellen

Een hobbel die Twitter moest nemen, is dat voorheen een neuraal netwerk veel tijd nodig had voor het voorspellen van een opvallend beeldgebieden. “En aangezien Twitter elk beeld real-time wil verwerken en croppen, was dat voor ons geen optie. Aan de andere kant hebben we geen fijnkorrelige voorspellingen op pixelniveau nodig, omdat we alleen geïnteresseerd zijn in ruwweg weten waar de meest opvallende regio's zijn.”

Twitter heeft twee technieken gebruikt om deze methodiek voor hen te optimaliseren. Het sociaal netwerk gebruikt de methodiek kennisdistillatie. In dat geval wordt een groter en krachtiger netwerk gebruikt om voorspellingen te genereren op basis van afbeeldingen. Deze voorspellingen worden, samen met enkele opvallende data, gebruikt om een kleiner, maar sneller, netwerk te trainen.

Daarnaast ontwikkelde Twitter een zogenaamde ‘pruning’-techniek om bepaalde feature maps van het neurale netwerk te verwijderen. Het gaat dan om de feature maps die veel tijd en energie kosten om te ontwikkelingen, maar die weinig bijdroegen aan de prestatie.

Door deze twee technieken toe te passen, kan Twitter nu tien keer sneller bepalen wat de opvallendste beeldgebieden zijn en op basis daarvan de beelden bijsnijden. De update wordt momenteel uitgerold op Twitter.com, iOS en Android.