De Dataloog: DTL DataNieuws, shownotes 29 juni 2020
Het op tweewekelijks ritme draaiende DataNieuws is de nieuwsupdate van De Dataloog, dé Nederlandse podcast over Big Data, Data Science, Machine Learning en de datagedreven transformatie. Wij brengen de digitale datagedreven wereld dichtbij in het Nederlands en op een begrijpelijke manier.
Goed nieuws uit Nederland
Goed nieuws voor IT’ers en hun carrière: het aantal IT'ers in Nederland is sinds 2013 flink gegroeid. Dit blijkt uit de Monitor Techniekpact van 2020, een coproductie van het Techniekpact, Platform Talent voor Technologie en de Rijksoverheid. Sinds de start van Techniekpact zeven jaar geleden is het aantal mensen met een ICT-baan met 110.000 gestegen. Maar ook het tekort aan IT'ers stijgt, zowel in het onderwijs als op de rest van de arbeidsmarkt.
Volgens de Monitor Techniekpact had vorig jaar maar liefst 4,8 procent van de gehele werkzame beroepsbevolking een baan binnen de ICT. Dat is flink meer dan in 2013, toen het nog om 3,8 procent van de totale werkzame beroepsbevolking ging. De meeste nieuwe IT'ers - 86.000 van de 110.000 - kiezen voor een baan als software- of applicatie-ontwikkelaar.
Ondanks die enorme stijging neemt het tekort aan IT'ers nog altijd toe. Volgens de Monitor Techniekpact kent zelfs geen enkele andere beroepsrichting zo'n sterke mate van krapte: meer dan de helft van de vacatures is moeilijk vervulbaar. De meeste tekorten zitten op hbo-niveau: 80 procent van de moeilijk vervulbare IT-vacatures zijn hbo-functies. Slechts 5 procent van de moeilijk vervulbare IT-vacatures is voor mbo'ers en 14 procent voor wo'ers.
Er is nu door de coronacrisis sprake van een flinke digitaliseringsslag, bij veel organisaties. Dus terwijl sommige beroepen het nu extra moeilijk hebben - denk in de horeca en events-business - zit het met IT wel snor. Tenminste, voor nu want mogelijk dat later dit jaar er nog een nasleepeffect komt. Hoe zit het straks met (IT-budgetten), zeker als bepaalde business wegvalt? Komen er dan meer IT'ers in de WW?
Meer goed nieuws uit Nederland: Axual en Linkit winnen de NATO innovation challenge. Reageren op de COVID-19-pandemie is het onderwerp van de Spring 2020 Innovation Challenge, georganiseerd door de NAVO Innovation Hub en het Nederlandse Ministerie van Defensie. De uitdaging, open voor ondernemers, ontwerpers, uitvinders, ingenieurs, wetenschappers, programmeurs en anderen, is op zoek naar innovatieve oplossingen, deze keer in relatie tot COVID-19.
Doel van deze wedstrijd is om de NAVO nieuwe, creatieve en efficiënte manieren te bieden om te reageren op veiligheidsuitdagingen. De wedstrijd wordt geleid door de NATO Innovation Hub, geleid door Allied Command Transformation. Elk jaar zijn er twee NATO Innovation Challenges, waarvan nu dus één in Nederland. De Dataloog heeft winnaars Axual en Linkit gesproken over hun data-innovatieproject. Ook interessant is de winnaar van de juryprijs: Verifeye Media. Die doet aan geautomatiseerde detectie van mogelijke misinformatie en desinformatie, voor video’s en foto’s.
Lokaal nieuws uit Nederland, Zeewolde krijgt het grootste datacenter van Nederland. Op bedrijventerrein Trekkersveld wordt een datacenter gebouwd dat groter is dan dat van Microsoft in Middenmeer of dat van Google in Eemshaven. Dit heeft de gemeente Zeewolde bekend gemaakt en is via Tijs Wilbrink binnengekomen bij De Dataloog.
Voor dit hyperscale datacenter wordt 166 hectare nieuw bedrijventerrein aangelegd op een perceel aan de Gooiseweg, direct naast de geplande uitbreiding van Trekkersveld. 166 hectare komt neer op maar liefst 323 voetbalvelden. Die forse ruimte wordt dan gevuld met vijf grote hallen met servers, met daarnaast bijbehorende faciliteiten, zoals kantoren voor het personeel. De gemeente wil in 2021 beginnen met de voorbereidende werkzaamheden en de bouw zal naar verwachting in 2028 af zijn.
Het datacenter heeft een flinke hoeveelheid stroom nodig. Dit kan worden geleverd door de transmissienetbeheerder Tennet, door een verbinding te maken met de hoogspanningskabel die parallel aan de Gooiseweg loopt. De reacties op LinkedIn waren niet onverdeeld positief. Veel negatieve reacties kwamen op onder andere het energieverbruik, en de onzichtbaarheid van de Amerikaanse partij die erachter zit.
De Dataloog heeft toevallig ook net een opname over hoe betere IT-infra kan leiden tot minder benodigde servers. De casus in de uitzending was een reductie van 14 servers op 20 stuks - dus van 20 naar 6 - dankzij hardware waar native Kubernetes op draait. Meer over datacenter, (groene) energie en innovatie op dat gebied in een toekomstige editie van De Dataloog.
Feit of Fictie
Waarom NLP zo ontzettend moeilijk is: onder meer omdat verschillende talen verschillende (werk)woordvolgorde hebben. De mooie illustratie die Nabih Ibrahim Bawazir op LinkedIn heeft gedeeld laat zien hoe lastig het is om natural language processing toe te passen. Een originele zin als 'I would like to try a suit i have seen in a shop across the street from our hotel' wordt in het Nederlands al wat anders: 'Ik zou graag een pak passen dat ik gezien heb in een winkel tegenover ons hotel aan de andere kant van de weg'.
Maar in het Frans wordt het nog wat anders: 'Je voudrais essayer un costume que j’ai vu dans un magasin en face de notre hotel'. Hier zie je dat de werkwoordvolgorde niet overeenkomt. Een vertaalalgoritme moet hierdoor nog meer omdraaien. In een taal als het Turks is de hele zin kruislings omgedraaid. Het zal nog wel enige tijd duren voordat BERT (Bidirectional Encoder Representations from Transformers) in staat is om echt goede vertalingen te geven.
Wat een machine learning-tool die Obama wit maakt, kan (en kan niet) ons vertellen over AI-bias. Een mooi artikel in The Verge over hoe er bias zit in algoritmes. Het is een verrassend beeld dat de diepgewortelde vooroordelen van AI-onderzoek illustreert. Voer een afbeelding met een lage resolutie in van Barack Obama, de eerste zwarte president van de Verenigde Staten, in een algoritme dat is ontworpen om gedepixeleerde gezichten te genereren, en de uitvoer is een blanke man.
Het is ook niet alleen Obama. Gebruik hetzelfde algoritme om afbeeldingen met een hoge resolutie te genereren van actrice Lucy Liu of congreslid Alexandria Ocasio-Cortez op basis van ingangen met lage resolutie, en de resulterende gezichten zien er duidelijk wit uit. Zoals een populaire tweet het Obama-voorbeeld citeerde: "Dit beeld spreekt boekdelen over de gevaren van vooroordelen bij AI."
Maar wat veroorzaakt deze output en wat vertel dat ons echt over AI bias? Ten eerste moeten we iets weten over de gebruikte technologie. Het programma dat deze afbeeldingen genereert, is een algoritme genaamd PULSE , dat een techniek gebruikt die bekend staat als upscaling om visuele gegevens te verwerken. Upscaling is als de ' zoom en verbeter'- functies die je ziet op tv en in films, maar, in tegenstelling tot Hollywood-fictie kan echte software niet zomaar uit niets nieuwe gegevens genereren. Om een afbeelding met een lage resolutie om te zetten in een afbeelding met een hoge resolutie, moet de software de lege plekken invullen met behulp van machine learning.
In het geval van PULSE is het algoritme dat dit werk doet StyleGAN, dat is gemaakt door onderzoekers van NVIDIA. PULSE gebruikt StyleGAN om de versie met hoge resolutie van gepixelde ingangen te verbeelden of voorspellen. Het doet dit níet door het originele beeld met lage resolutie te "verbeteren". In plaats daarvan genereert het een volledig nieuw gezicht met hoge resolutie dat er, indien gepixeld, hetzelfde uitziet als het gezicht dat door de gebruiker is ingevoerd. Andersom dan een leek zou verwachten.
Dit betekent dat elke afbeelding die van een pixel verwijderd is, op verschillende manieren kan worden opgeschaald, net zoals een enkele set ingrediënten verschillende gerechten maakt. Het is ook waarom je PULSE kunt gebruiken om te zien hoe de gepixelde space marine in Doom, of de held in Wolfenstein 3D, of zelfs de huilende emoji er als mens uitziet, met hoge resolutie. Het is niet zo dat het algoritme nieuwe details in de afbeelding “vindt” zoals in de trope “inzoom en verbeteren”; het bedenkt in plaats daarvan nieuwe gezichten die terugkeren naar de invoergegevens.
Ondoordacht gebruik van zulke technologie kan 'leiden' naar misstanden zoals recent de onterechte arrestatie van een gekleurde man in de VS. Hij is opgepakt op basis van een gezichtsherkenningsfout die pas later werd gezien en erkend. Een fout met flinke persoonlijke impact voor de man in kwestie en zijn familie, zo valt te horen in een audiofragment.
Zorgen over ‘computer says yes’, als groter gevaar dan de komische uitdrukking 'computer says no'. Over de risico's die voortkomen uit de combinatie van blind vertrouwen in computers, plus een blackbox-aanpak voor algoritmes waarbij dan niet goed inzichtelijk is hoe of waarom iets verkeerd gaat. Waarop heeft een algoritme een bepaalde beslissing gebaseerd? Open algoritmes zijn cruciaal. Hashtag toeslagenaffaire? Er is wel groeiend besef van dit probleem, maar dat vertaalt zich niet altijd in brede maatregelen.
Academisch nieuws
Humor in de academische wereld: hoe noem je een boekhoudapplicatie voor A Large Ion Collider Experiment (ALICE)? Antwoord: Jiskefet. Gemaakt door Marten Teitsma, Vasco Chibante Barosso, Pascal Boeschoten en Patrick Hendriks. Jiskefet is ontwikkeld voor ALICE tijdens de Long Shutdown 2 en blijft in productie tot het einde van LHC Run 4 (2029).
Jiskefet is geen gewoon boekhoudpakket, voor bedrijfsboeken. De software verenigt twee functionaliteiten: ten eerste het verzamelen, opslaan en presenteren van metagegevens die verband houden met de bewerkingen van het ALICE-experiment, en ten tweede het volgen van de asynchrone verwerking van de natuurkundige gegevens.
Dit artikel beschrijft de organisatie van het werk van verschillende studententeams die in opeenvolgende en parallelle semesters aan Jiskefet werken en hoe continuïteit wordt gegarandeerd door het gebruik van richtlijnen voor codering, documentatie en ontwikkeling. Het beschrijft ook de huidige status van de ontwikkeling, de eerste ervaring met stand-alone in bedrijfstellingsopstellingen van detectoren en de toekomstige plannen.
Cloudnieuws
Cloud is minder storingsbestendig dan aanbieders je graag willen doen geloven. Natuurlijk er kan altijd iets fout gaan, maar de grote belofte van cloud is dat er dusdanig sprake van redunantie is dat storingen ongemerkt kunnen worden opgevangen. Vaak is dat ook echt zo. Maar niet altijd. Zie maar IBM’s recente grote cloudstoring. De oorzaak daarvan bleek 'buiten' de cloudaanbieder te liggen.
Zulke keten- en domino-effecten zijn eerder al wel eens opgetreden, zoals recent bij Microsoft en eind 2018 bij GitHub. Zulke problemen kunnen lastig op te lossen zijn en kunnen dus voor lange storingen zorgen. Belangrijk om te beseffen is dat problemen bij clouddiensten de verantwoordelijkheid zijn en blijven van de klant. Gelukkig beseffen sommige IT’ers dat wel, blijkt uit onderzoek van Oracle en KPMG.
Securitynieuws
Over IT-security en aansprakelijkheid: een geruchtmakende uitspraak in een Nederlandse rechtszaak naar aanleiding van ransomware. IT-bedrijven blijken verantwoordelijk voor de schade van gijzelsoftware wanneer blijkt dat ze de beveiliging bij hun klant niet op orde hadden. In een onlangs gepubliceerd vonnis moest de leverancier niet alleen directe schade vergoeden, maar ook herstelkosten en verloren omzet. Experts verwachten naar aanleiding van dit vonnis een stortvloed aan schadeclaims.
Deze zaak uit 2018 draait om een klein administratiekantoor wat zo'n €10.000 aan totale schade heeft geleden. De kwestie staat echter model voor een breder fenomeen. "In heel veel onderzoeken die wij draaien is exact hetzelfde gebeurd. Alleen gaat het dan om tonnen aan directe schade en miljoenen aan indirecte schade", stelt Frank Groenewegen van Fox-IT.
De crux zit in: ”Wanneer geleverde basisbeveiliging aantoonbaar tekortschoot”. Hoe toon je zoiets aan, in constant evoluerende malware/securitywereld? Branchevereniging NLDigital meent dan ook dat de soep niet zo heet gegeten wordt. En ook jurist Menno Weij voorziet géén regen aan schadevergoedingen. “Mijn voorspelling: dat gaat niet gebeuren. Deze zaak is daarvoor te atypisch", legt Weij uit in een blogpost op AG Connect.
Wijze woorden over IT-security lijken van toepassing te zijn:
Diezelfde wijsheid kan ook gebruikt worden voor de onderwerpen privacy en 'job security'. Startup enaible gebruikt algoritmes om werknemers een 'productiviteitsscore' te geven. "98% creepy -- 2% cool", oordeelt Paul van der Laken op LinkedIn. Enaible is een van een reeks nieuwe bedrijven die werkgevers tools geven om hun werknemers in de gaten te houden, maar critici vrezen dat dit soort toezicht het vertrouwen ondermijnt.
In de afgelopen paar maanden zijn miljoenen mensen over de hele wereld vanwege de coronapandemie overgeschakeld van werken op kantoor naar werken thuis. Deze werknemers zijn misschien uit het zicht van managers, maar ze zijn niet uit het hart. De omwenteling is gepaard gegaan met een gerapporteerde piek in het gebruik van bewakingssoftware waarmee werkgevers kunnen volgen wat hun werknemers doen en hoelang ze eraan besteden.
Diverse bedrijven hebben extern werkende medewerkers al verzocht om verschillende monitoring- of proctoringtools te installeren. Enkele voorbeelden: Hubstaff die toetsenbordaanslagen, muisbewegingen en bezochte websites registreert, Time Doctor die ook video-snapshots maakt van wat gebruikers op hun schermen hebben en die ook elke 10 minuten een webcam-foto kan maken om om te controleren of werknemers achter hun computer zitten, en Isaak wat interacties tussen werknemers controleert om te bepalen wie er meer samenwerkt. Het Britse Isaak combineert deze interactiemetingen met informatie uit personeelsdossiers om individuen te identificeren die 'veranderaars' zijn.
Enaible wil nog een stap verder gaan. Het ontwikkelt machine-learning software om te meten hoe snel medewerkers verschillende taken uitvoeren en om manieren aan te dragen voor sneller uitvoeren van die taken. De tool geeft elke persoon ook een productiviteitsscore, die managers kunnen gebruiken om de werknemers te identificeren die het waard zijn om te behouden - en degenen die dat 'dus' niet zijn.
Een ander geval van 'job security' en automatisering: een VBA-script in Excel is gebruikt om meer dan 1.000 amendementen af te vuren in Israël. Een oppositielid stuitte op het praktische probleem van de Shabbat en heeft IT ingezet voor 'de concurrentiestrijd' wie de meeste wijzigingen in filibuster kan aanbrengen, om stemmen over controversiële wetgeving te vertragen.
Nadat Yesh Atid Mickey Levy en zijn adviseurs vorige maand meer dan 1.000 wetswijzigingen hadden ingediend die de vorming van de huidige regering hebben vergemakkelijkt, besloot oppositielid Yamina Matan Kahana hem te overtreffen. De door hem - en een VBA-script in Excel - voorgestelde wijzigingen waren voor een omstreden toevoeging aan de Israelische wetgeving, vormgegeven naar Noors voorbeeld (vandaar de term Norwegian law).
Kahana's assistent, Lavi Eisenmannn, wendde zich tot zijn vader, computerprogrammeur Shamai Eisenmann, die een platform van computerprogramma's bouwde om in 75 minuten tijd 6000 wijzigingen door te voeren. Zes-dui-zend. Het verhaal werd zondag voor het eerst onthuld door de krant Makor Rishon. Deze amendementen, die suggereerden om elk woord in het wetsvoorstel beetje bij beetje te wijzigen, werden gebruikt om urenlang overleg op zondag te verkwisten. Een van de amendementen suggereerde dat het wetsvoorstel alleen op oneven dagen van de week van toepassing zou zijn. Bizar, maar ook bizar slim.
Vader Eisenmann zei dat hij het platform met de Microsoft-programma's Excel en Visual Basic heeft gemaakt. Gevraagd door Army Radio of hij meer stappen zou ondernemen om leden van de Knesset (MK’s) te vervangen door computerprogramma's, zei hij "dat kan meer tijd kosten, maar het mag niet te ingewikkeld zijn." Over robotisering en banen gesproken!
En terug naar privacy en datagebruik: een Zweeds wetsvoorstel voor de invoering van geautomatiseerde gezichtsherkenning op de luchthaven van Savska, de op vier na grootste luchthaven van het land. In 2019 is er in Zweden al illegaal gebruik gemaakt van gezichtsherkenning door de politie van het land, een bekende klant van Clearview AI. Dat omstreden bedrijf maakt software die zoekopdrachten in miljarden online geplaatste foto's mogelijk maakt.
Binnen het speciale initiatief Rimfrost tegen bendecriminaliteit heeft de politie een nieuwe techniek voor gezichtsherkenning getest zonder de gegevensinspectie hiervan op de hoogte te stellen, onthult nieuwsdienst Ekot van de Zweedse radio. IT-topman Peter Bergström van het nationale forensisch centrum in Zweden legt uit dat het idee niet is om gezichtsherkenning te gebruiken om aan te geven wie iemand op een foto of video is. Het doel is om gezichtsherkenning te gebruiken om aan te geven dat iemand dezelfde persoon is op verschillende plekken in het doorzochte beeldmateriaal.
En van een Zweeds wetsvoorstel over privacy door naar Nederland en een wetsvoorstel voor security. Het kabinet hier wil updates (voor security én functionaliteit) garanderen voor eindgebruikers door niet direct de producenten aan te pakken, maar door de verkopers verantwoordelijk te stellen.
Security en verantwoordelijkheid kan niet alleen op consumentenniveau wat kosten, ook voor een bedrijf als Wehkamp en de curatoren van modemerk Didi is er veel geld mee gemoeid. Specifiek: 144.000 euro. Voor dat bedrag is webwinkel Wehkamp via nepmails opgelicht. Een iets ouder geval van zogeheten CEO-fraude, maar zeker relevant.
Wehkamp verkoopt al jaren kleding van modehuis Didi, dat in januari failliet ging. Na het faillissement bleef Wehkamp de kleding verkopen, waarbij het geld werd overgemaakt naar de rekening van de failliete boedel, die wordt beheerd door de curatoren van Didi. In februari wisten criminelen toegang tot het e-mailverkeer tussen Wehkamp en de curatoren te krijgen. Zo ontdekten ze dat Wehkamp geregeld grote bedragen aan de curatoren overmaakt.
De criminelen maakten vervolgens e-mailaccounts aan die erg leken op die van Wehkamp en de curatoren en wisten beide partijen zover te krijgen om via de e-mailadressen te communiceren. Vervolgens lieten Wehkamp weten dat het geld voortaan naar een ander rekeningnummer moest worden overgemaakt. Deze wijziging is geverifieerd maar dat dus via het e-mailadres van de oplichters, die natuurlijk hun malafide wijziging bevestigden. Zo is in de loop van enkele dagen een totaal van 144.000 euro overgemaakt naar een ING-rekening. Dat geld is daar vandaan meteen doorgesluisd.
Uit onderzoek zou blijken dat de criminelen niet hebben ingebroken op de e-mailaccounts van de curatoren. Tevens stellen de curatoren dat Wehkamp de rekeningwijziging grondiger had moeten controleren. Ze willen dan ook nog steeds de 144.000 euro van de modeketen ontvangen. Een woordvoerster van Wehkamp laat aan RTL Nieuws weten dat er meerdere scenario's mogelijk zijn voor de fraude. "Vast staat dat de fraudeur een e-mail die daadwerkelijk afkomstig was van de curator en het specifieke casusnummer in zijn bezit had en heeft gebruikt voor deze fraude. Wij hebben intern laten onderzoeken of er sprake was van een hack bij Wehkamp en dat bleek niet het geval."
De data-uitagenda
Niet echt een uitagenda in deze coronatijden, maar wel wat leestips. Zoals een goed geschreven artikel in de Volkskrant over welk land de beste coronastrategie heeft : 5 lessen over de eerste coronagolf.
Verder van 6 tot 17 juli de eerste online-conferentie voor Apache Airflow developers. Hoe wordt Airflow gebruikt door marktleidende bedrijven, wat is de roadmap en hoe kunnen developers bijdragen aan de ontwikkeling van deze opensourcesoftware?
Nog een mooi stukje leesvoer: een diepgaande blogpost over deep learning en chaos. In niet-lineaire dynamica, wanneer wordt aangenomen dat de toestandsruimte multidimensionaal is, maar alles wat we hebben aangegeven is slechts een univariate tijdreeks met observaties. In deze post laten de mensen van Rstudio je zien hoe je een autoencoder-architectuur kunt bouwen voor niet-lineaire systemen.
Tot slot op de valreep binnengekomen: de nieuwe blog van Vincent Warmerdam. Zijn nieuwe blog heet Mean Squared Terror en gaat over hoe grid search wordt misbruikt door data scientists. Met nog een later gedane toevoeging om een fikse bug in de statistieken te corrigeren. Dit heeft de eindconclusie niet 'aangetast', maar wel enkele van de gebruikte cijfers.
Reacties
Om een reactie achter te laten is een account vereist.
Inloggen Word abonnee