Januari 2021
Algoritmes worden steeds vaker ingezet, en zijn van steeds grotere invloed op zowel mensen als organisaties. Algoritmes optimaliseren niet alleen allerlei operaties; ze kunnen ook mensen discrimineren. Zo kunnen de profielen die worden gebruikt in het kader van fraudedetectie twijfelachtig zijn. Algoritmes kunnen ook invloed hebben op het aannemen van nieuw personeel, op hypotheekaanvragen of op online targeting. In al dit soort processen horen mensen een eerlijke behandeling te krijgen. Bij ORTEC houden wij ons dan ook intensief bezig met ethical AI, en gelukkig kunnen we ervoor zorgen dat er steeds meer eerlijkheidsaspecten aan algoritmes worden toegevoegd.
Dit artikel is het derde deel uit de serie Data and AI in the Boardroom. Het artikel is geschreven door Rogier Emmen, Lead Consultant Data Science, en behandelt het deelonderwerp Explainable & Fair AI.
Relevantie voor de boardroom
Algoritmes kunnen nog zo accuraat zijn, maar als ze uitgaan van onvolledige data of te veel bias hebben, dan kunnen ze resultaten opleveren die oneerlijk aanvoelen. Het corrigeren daarvan is niet alleen een technisch probleem, ervaart Rogier. Naast oneerlijke resultaten zijn er voldoende redenen voor de boardroom om zich over dit probleem te buigen. “Er is regelgeving van kracht, dus als je het als bedrijf fout doet kun je boetes krijgen of goodwill verliezen. Daarnaast kun je economische kansen missen doordat algoritmes zich conservatief gedragen; bijvoorbeeld doordat ze blijven focussen op doelgroepen die voorheen ook zijn aangesproken.”
Sommige algoritmes zijn oneerlijk
Zoals we eerder hebben uitgelegd in ons artikel omtrent uitdagingen binnen Data Science, zijn algoritmen op zichzelf niet per se oneerlijk, maar zijn machine learning-modellen zo slim als de data waarop ze zijn getraind. Simpel gezegd, algoritmen zetten input (data) om in output, wat in wezen betekent dat ze historische data repliceren. Aangezien deze historische data mogelijk vertekend zijn, zal dit zich vertalen in oneerlijke algoritmen.
Data kan biased zijn ten opzichte van gevoelige groepen. Als dat zo is zal een nauwkeurig algoritme de gevoelige groepen blijven discrimineren. Zelfs als de data eerlijk zijn, zijn de voorspellingen over minderheden nog altijd onnauwkeuriger, waarschuwt Rogier. “Er kan statistisch nu eenmaal minder worden gezegd over kleine groepen. Dat heeft eerder negatieve dan positieve gevolgen. Bij een naïeve aanpak weegt het algoritme ze ook minder zwaar mee in de beoordeling, omdat ze nu eenmaal minder vaak in data voorkomen.”
_________________________________________________________________________________________________
‘Er kan statistisch nu eenmaal minder worden gezegd over kleine groepen.
Dat heeft eerder negatieve dan positieve gevolgen.’
_________________________________________________________________________________________________
Je kunt algoritmes trainen zodat ze gelijke kansen geven aan alle groepen. Maar, zegt Rogier: “Dat gaat wel ten koste van de accuracy, omdat je een morele afweging maakt en tegen het beschikbare bewijs ingaat. Om een voorbeeld te geven: er zijn bedrijven die op basis van data van hun werknemers uit het verleden voorspellen hoe goed een potentiële nieuwe medewerker zal zijn. Maar indien er voorheen voornamelijk mannen op de werkvloer waren, en je niet oppast met modelleren, hebben mannen een grotere kans om aangenomen te worden.”
Fraudedetectie
Algoritmes kunnen gevoed worden met allerlei aspecten: waar mensen vandaan komen, hoe oud ze zijn, van welk geslacht ze zijn, enzovoort. Die selectie kan onbedoelde gevolgen hebben. Rogier: “De Belastingdienst had een fraudedetectiesysteem met als input of iemand meerdere paspoorten had. Dat ging in tegen de Algemene wet gelijke behandeling, die zegt dat je niet mag discrimineren op grond van nationaliteit, ras, gender et cetera. Maar ook als het algoritme niet direct gevoed wordt met gevoelige eigenschappen moet je oppassen. Denk aan verzekeraars. Zij prijzen producten, en daar gebruiken ze postcodes bij. Nu zijn in bepaalde wijken bepaalde nationaliteiten oververtegenwoordigd. Die moeten dan hogere premies betalen. Daar moet je je bewust van zijn en dat moet je kunnen uitleggen.”
Image recognition
Bij image recognition speelt een soortgelijk probleem, zegt Rogier. Zulke software is bijvoorbeeld van belang voor de zelfrijdende auto’s van morgen, die zelfstandig voetgangers moeten herkennen. “Stel dat witte mensen in 99,99% gevallen goed herkend worden en zwarte mensen in 99,98% van de gevallen. Dan lopen zwarte mensen twee keer zoveel gevaar om aangereden te worden. Dat kan natuurlijk niet. Ieder individu moet een even grote kans hebben om herkend te worden. In de medische sector wordt ook steeds meer image recognition gebruikt om aandoeningen te herkennen. Dan moeten mensen met dezelfde fysieke eigenschappen wel vaak genoeg in de dataset zitten.”
Rogier Emmen, Lead Consultant Data Science
"Onthoud dat een dataset altijd maar een beperkte weergave is van de werkelijkheid, en zelden het volledige beeld geeft."
Mens vs. algoritme
Algoritmes zijn dus niet perfect. Toch moeten er beslissingen worden genomen en voorspellingen worden gedaan. Kunnen mensen met goede intenties dat beter en eerlijker dan algoritmes? “Ja en nee”, vindt Rogier. “Het voordeel van een menselijk oordeel boven een algoritmisch oordeel is dat een mens beschikt over veel meer inzichten (context, tijdsbesef, normen en waarden) en dus niet beperkt is tot de dataset. Daarnaast heeft de mens het vermogen om logisch te redeneren, iets waar huidige AI-methodes nog niet toe in staat zijn. Een algoritme maakt daarentegen veel beter gebruik van de beschikbare data. Puur op basis van een grote en kwalitatief goede dataset zal een machine-learning algoritme in de praktijk altijd nauwkeuriger presteren dan een mens, of zelfs een groep mensen.”
Kunnen we algoritmes verbeteren?
Het belang van fairness en explainability wordt al langer onderkend. IBM en Google introduceerden al toolkits die helpen om vooroordelen in data te ontdekken, en volgens de Europese Commissie moeten er kwaliteitskaders komen voor het ontwikkelen van algoritmes. Rogier geeft een aantal handvatten voor projecten met gevoelige data. Dit zijn vier stappen die we bij ORTEC volgen om een fair project te garanderen:
_________________________________________________________________________________________________
"Er is behoefte aan transparantie en eerlijke kansen. Mensen willen snappen wat er in die algoritmes gebeurt."
_________________________________________________________________________________________________
Kunnen alle algoritmes eerlijk zijn?
Ondanks alle inspanningen zullen algoritmes nooit perfect eerlijk worden, voorspelt Rogier. “Zoiets bestaat niet, net zoals er geen eerlijk mens bestaat. Er is geen heilige graal in eerlijkheid; wat we eerlijk vinden verandert ook nog eens met de tijd.
Gelukkig kunnen we er wel voor zorgen dat er steeds meer eerlijkheidsaspecten aan algoritmes worden toegevoegd, in plaats van alleen te focussen op nauwkeurigheid. De aandacht hiervoor neemt toe onder druk van wet- en regelgeving, de media en de maatschappij. Facebook is haar eigen algoritmes aan het evalueren. Er is behoefte aan transparantie en eerlijke kansen. Mensen willen snappen wat er in die algoritmes gebeurt en of de afwegingen eerlijk zijn. Dat is ook niet meer dan redelijk.”
Als Lead Consultant Data Science bij ORTEC en dankzij zijn ervaring in een veelheid aan branches bewijst Rogier Emmen dat data science van grote waarde is in ons dagelijks leven. Ondanks de complexiteit streeft Rogier ernaar om oplossingen zo eenvoudig mogelijk te houden. Het delen van zijn kennis met anderen is wat hij graag doet, wat voor hem ook een belangrijke reden is om les te geven aan The Analytics Academy.
Stay current through our Data Brief, delivered to your mailbox once a month.