Wordt de 'zwarte doos' van ki ontraadseld? - Geleerd uitschotGeleerd uitschot

Kunstmatige intelligentie Het is natuurlijk heel raar dat ki-systemen vrijwel ondoorzichtig zijn, een zwarte doos. Dat heeft naar mijn(=as) beschei-den mening alles te maken met de makers. Was/is dat onkunde of opzet? Geen idee, maar hoe ki-systemen tot een ‘besluit’ komen was niet te volgen, terwijl er wel degelijk transparante ki-systemen zijn te ontwikkelen. Het lijkt er op dat er nu een groepje wetenschappers die een methode heeft ontwikkeld op grote taalmodellen, een momenteel veel gebruikte vorm van kunstmatige intelligentie, ‘open te breken’, maar is het niet zinnig te eisen dat ki-systemen antwoord kunnen geven op de vraag hoe ze tot een bepaalde beslissing zijn gekomen.

De techniek onthult niet alleen de fundamentele instellingen en ‘persoonlijkheidskenmerken’ van kunstmatige intelligentie, maar biedt ook de mogelijkheid om deze selectief aan te passen om de kwaliteit van de reacties te verbeteren. Tegelijkertijd zou de ontwikkelde methode ook zwakke punten zichtbaar maken, zoals de neiging om informatie te verzinnen of ingebouwde beveiligingsmechanismen bij bepaalde opdrachten te negeren.
Een zwak punt van die grote taalmodellen is dat enorme hoeveelheden menselijke kennis nodig hebben om iets zinnig te kunnen uitvoeren. Tegelijkertijd zijn die nu veel meer dan alleen antwoordgevers. Op basis van die enorme hoeveelheid gegevens kunnen ki-systemen abstracte concepten verinnerlijken en specifieke tonen, persoonlijkheden of stemmingen aannemen. Hoe dit precies gebeurt en hoe de interne ‘overtuigingen’ van een ki-systeem zijn reacties beïnvloeden, is echter tot nu toe een ‘zwarte doos’ gebleven.
Onderzoekers rond Daniel Beaglehole van de universiteit van Californië, San Diego, hebben nu een methode ontwikkeld om de verborgen concepten die door ki zijn aangeleerd, transparant te maken. De onderzoekers gebruikten hiervoor een algoritme genaamd ‘Recursive Feature Machine’ (RFM). Deze methode is gebaseerd op machinaal leren en is in staat patronen in gegevens te herkennen en complexe relaties in kaart te brengen.

Met behulp van deze aanpak onderzochten Beaglehole en zijn collega’s verschillende versies van het ki-taalmodel Llama aan de hand van in totaal 512 concepten, waaronder persoonlijkheden, stemmingen en angsten. Ze analyseerden bijvoorbeeld welke interne verbanden werden geactiveerd toen ze het model vroegen te reageren vanuit het perspectief van iemand die van Boston houdt of werkt als socialemediabeïnvloeder.
Deze bevindingen stelden de onderzoekers in staat om de relevante verbanden selectief te versterken of te verzwakken en zo toekomstige reacties te beïnvloeden. “Onze methode biedt manieren om deze verschillende concepten te extraheren en te activeren op een manier die niet mogelijk is met opdrachten”, aldus co-auteur Adityanarayanan Radhakrishnan van het Massachusetts Institute of Technology (MIT) in Cambridge (VS).

Ze ontdekten dat deze manipulatiemethode een tweesnijdend zwaard is. Enerzijds kan het de kwaliteit van de reacties verbeteren, waardoor de ki efficiënter wordt in bepaalde taken zonder noemenswaardige ‘bijscholing’. Anderzijds staat het echter ook misbruik toe. Toen de onderzoekers bijvoorbeeld het concept verzwakten dat het systeem instrueert om schadelijke verzoeken af te wijzen, gaf het zonder aarzeling instructies over hoe een bank is te beroven of cocaïne te gebruiken. Toen ze het concept van ‘complottheorieën’ versterkten, gaf het commentaar op een NASA-afbeelding van de aarde en beweerde dat deze nep was en dat de aarde in werkelijkheid plat is.

Zwakheden elimineren

Zelfs in het geval van het huidige mogelijke misbruik kan de nieuwe methode helpen om de bijbehorende zwakheden te ontdekken en te elimineren. Die kan ook helpen om de oorzaken van verzinsels te achterhalen zoals nogal eesn gebeurt. In vergelijking met andere methoden vereist de RFM-techniek bovendien zeer weinig rekenkracht, stellen de onderzoekers.
Dit maakt het eenvoudig om het te integreren in bestaande leerstructuren voor ki-taalmodellen, waardoor de ‘zwarte doos’ van kunstmatige intelligentie toegankelijker wordt, stellen de onderzoekers. Zou het niet makkelijker zijn om ki-systemen te ontwerpen die een duidelijk antwoord kunnen geven op de vraag hoe ze tot hun conclusies zijn gekomen? Of ben ik nou heel naïef?

Bron: bdw

Geleerd uitschot

Over wetenschap en ander vermaak

Wordt de ‘zwarte doos’ van ki ontraadseld?

Zwakheden elimineren

Geef een reactie