AI heeft een kortere aandacht dan je denkt (en wat je eraan kunt doen)

Je bent lekker bezig met ChatGPT, Claude, Gemini of Sterc.ONE, het loopt als een trein, en dan gebeurt er iets raars. De antwoorden worden vager. Het model vergeet wat je een paar berichten geleden hebt afgesproken. Soms verzint hij zelfs dingen die er nooit waren. Je denkt: is dit ding nou ineens dommer geworden?

Nee. De werktafel is gewoon vol.

In dit artikel leg ik uit wat er onder de motorkap gebeurt, waarom elke AI dit probleem heeft, en vooral: wat je er zelf aan kunt doen.

TL;DR

Als je weinig tijd hebt, hier de kern:

AI werkt met een context window, een soort werktafel met vaste grootte
alles wat het model nodig heeft moet op die tafel passen: jouw vragen, zijn antwoorden, documenten, instructies
die tafel meten we in tokens, stukjes tekst van ongeveer driekwart woord
als de tafel vol raakt, gaat de AI vergeten, herhalen en fantaseren
oplossing: nieuw gesprek starten, documenten strippen, taken opknippen, prompts kort houden
bestanden uploaden kost net zoveel tokens als tekst, soms zelfs meer
schrijfstijl en gedrag horen in je prompt, losse feiten in een kennisbestand

De rest van dit artikel gaat dieper op al deze punten in.

Wat is een context window eigenlijk

Stel je voor dat een AI een werktafel heeft waar alles op ligt waar hij op dat moment mee bezig is. Jouw vragen, zijn eerdere antwoorden, documenten die je hebt geüpload, instructies die hij heeft meegekregen. Alles wat hij nodig heeft om je vraag te beantwoorden, moet op die tafel passen. Die tafel heet het context window.

Het probleem is dat die tafel een vaste grootte heeft. Hij kan niet groter worden tijdens het gesprek. Zodra de tafel vol is, moet er iets af voordat er iets nieuws bij kan. En wat er afgaat, is vaak precies wat je nog nodig had.

En wat zijn tokens

Alles op die tafel wordt gemeten in tokens. Een token is een stukje tekst, meestal een woord of een deel van een woord. Het Nederlandse woord "keukentafel" kan bijvoorbeeld in drie tokens worden gehakt: "keuken", "ta", "fel". Leestekens tellen ook mee.

Als vuistregel:

honderd woorden zijn ongeveer honderdvijftig tokens
een A4'tje tekst is grofweg vijfhonderd tokens
een flink rapport van tien pagina's komt al snel op vijfduizend tokens
honderdduizend tekens staan ongeveer gelijk aan 25.000 tokens

Moderne AI-modellen hebben tegenwoordig context windows die tot een miljoen tokens kunnen gaan. Dat klinkt als eindeloos veel, en het is ook echt veel. Maar de tafel loopt sneller vol dan je denkt, zeker als je lange documenten uploadt of uren doorpraat over hetzelfde onderwerp. En er is nog iets: ook al past de informatie er fysiek op, modellen onthouden het begin en eind beter dan het midden. Als je ergens halverwege een belangrijk detail hebt genoemd in een lang gesprek, is de kans reëel dat de AI het over het hoofd ziet.

Waarom de AI dan raar gaat doen

Als het context window vol begint te raken, gebeuren er een paar dingen. De AI vergeet wat je in het begin van het gesprek hebt gezegd. Hij begint zichzelf te herhalen. Hij geeft antwoorden die niet meer aansluiten op je vraag. Soms verzint hij dingen die er niet zijn, omdat hij de context kwijt is.

Het is een beetje als met een collega die na zes uur vergaderen nog steeds nieuwe informatie op zich af krijgt. Op een gegeven moment is de emmer gewoon vol.

Alles telt mee op die tafel

Dit is waar veel mensen zich op verkijken. Bij elke nieuwe vraag die je stelt, wordt het complete pakket opnieuw op de tafel gelegd:

de instructies die het platform zelf meegeeft
jouw eigen instructie-prompt als je een assistent hebt gebouwd
alle bestanden die je hebt geüpload
de hele gespreksgeschiedenis tot dat moment
je nieuwe vraag

En dan komt het antwoord van het model er ook nog bij, voor de volgende ronde. Elke beurt sleep je meer mee dan de vorige. Na tien berichten heen en weer kan de tafel zomaar voor driekwart gevuld zijn, nog voordat je nieuwe vraag erbij komt.

Bestanden kosten soms meer dan je denkt

Voor het model maakt het weinig uit of tekst uit een upload komt of dat je hem in het chatvenster plakt. Een woord is een woord. Maar er zijn wel praktische verschillen.

Een PDF kost meer tokens dan dezelfde inhoud als platte tekst. Dat komt doordat de tekst uit de PDF wordt gehaald inclusief rommel: kopregels die op elke pagina herhalen, paginanummers, losse karakters van slecht herkende opmaak. Een markdown-bestand met dezelfde inhoud is vaak dertig procent lichter.

Afbeeldingen tellen ook mee, en verrassend zwaar. Eén screenshot kost al snel duizend tokens, ongeacht hoeveel tekst erop staat. Als je iets kunt overtypen in plaats van screenshotten, scheelt dat flink.

Wat kun je doen als het misgaat

Als je merkt dat de AI de draad kwijtraakt, zijn er een paar dingen die helpen:

start een nieuw gesprek. Dat is verreweg de beste oplossing. Nieuwe tafel, lege vloer, fris beginnen.
vat het gesprek tot nu toe zelf kort samen en plak die samenvatting in het nieuwe gesprek
zet alleen de documenten erin die je echt nodig hebt voor die ene vraag
houd gesprekken per onderwerp apart, dus één voor je marketingtekst, één voor je belastingvraag

Een goede vuistregel: als je na tien keer heen en weer het gevoel krijgt dat je in kringetjes draait, ligt het bijna nooit aan jou. Dan is de tafel vol en is het tijd om opnieuw te beginnen.

Slimmer werken vanaf het begin

Beter dan problemen oplossen is ze voorkomen. Een paar gewoontes die echt verschil maken:

strip je documenten voordat je ze erin gooit. Haal voorbladen, inhoudsopgaves en herhalende footers eruit. Vaak zit dertig tot veertig procent van een bestand vol met ruis
knip grote documenten op en geef alleen het hoofdstuk mee dat relevant is
zet tabellen om naar platte tekst of CSV, want PDF-tabellen worden vaak als rommelige tekst ingelezen
gebruik markdown-bestanden in plaats van PDF waar dat kan
upload afbeeldingen alleen als het echt nodig is

Taken opknippen werkt bijna altijd

Een grote taak als "maak een marketingplan voor mijn bedrijf" is voor een AI vergelijkbaar met die taak aan een stagiair geven zonder verdere uitleg. Je krijgt iets algemeens terug waar je niet veel mee kunt.

Als je hem opknipt in doelgroep bepalen, kernboodschap formuleren, kanalen kiezen en contentkalender opzetten, krijg je per onderdeel een veel beter resultaat. Je houdt per stap context over voor nuance en doorvragen. Bij agents is opknippen nog belangrijker, omdat een agent die vastloopt halverwege een grote taak vaak alles overdoet op een andere manier.

De vuistregel die wij zelf hanteren: als je een taak niet in twee zinnen kunt uitleggen aan een collega, is hij te groot voor één prompt.

Korte prompts bij agents

Een agent doet meerdere stappen achter elkaar en bij elke stap gaat jouw oorspronkelijke instructie weer mee de tafel op. Als je instructie zelf al lang is, vreet dat bij elke stap ruimte. Korter is daarom bijna altijd beter.

Wat goed werkt: één duidelijk doel, een paar concrete regels, en een voorbeeld van het gewenste resultaat. Drie alinea's is meestal genoeg. Als je merkt dat je een heel boek aan het schrijven bent, is dat een teken dat je taak te breed is.

Instructies en kennis: houd ze apart

Als je een eigen GPT of assistent bouwt, krijg je meestal een veld van 8000 tekens voor je instructie. Dat lijkt weinig, maar dat is genoeg als je het slim indeelt.

De truc is onderscheid maken tussen twee dingen:

gedrag hoort in je prompt: rol, toon, werkwijze, schrijfregels, wat wel en niet doen
kennis hoort in een los bestand: procedures, productinfo, tarieven, voorbeelden

Een prompt die ook nog vol feiten staat, wordt onoverzichtelijk en het model pikt er minder uit op. Een kennisbestand dat apart staat, wordt alleen geraadpleegd als het nodig is. Dat scheelt ruimte op de tafel.

Schrijfstijl hoort in de prompt

Mensen vragen me weleens of schrijfregels zoals "gebruik geen em-dashes" en "schrijf informeel" in de prompt horen of in een kennisbestand. Antwoord: in de prompt. Schrijfregels moeten bij elke output meespelen, ongeacht wat de vraag is. In een kennisbestand moet het model eerst besluiten om dat bestand te raadplegen voordat het de regels toepast, en dat gebeurt lang niet altijd.

Hetzelfde geldt voor tone of voice. Korte toon-omschrijving van vijf tot tien regels: altijd in de prompt. Alleen bij een complete redactiegids met tien pagina's aan voorbeelden zet je de uitleg in een bijlage en houd je de harde regels in de prompt.
Een praktische tip: negatieve instructies zoals "gebruik geen em-dashes" werken minder goed dan je zou denken. Geef er altijd een alternatief bij: "gebruik een punt of komma in plaats van em-dash". En herhaal de belangrijkste regels aan het eind van je prompt nog een keer. Het model weegt instructies aan het einde zwaarder bij het genereren.

De drie lagen van een prompt

Tot slot iets dat vaak door elkaar gehaald wordt. Er zijn drie lagen instructies, en ze hebben alle drie een ander doel.

De systeem-prompt is wat het platform zelf meegeeft aan het model. Veiligheidsregels, gedragsregels, de basisidentiteit. Die zie je niet en daar kun je niet bij.

De instructie-prompt is wat jij invult als je een assistent bouwt. Wie is hij, hoe werkt hij, welke toon gebruikt hij.

De gebruikers-prompt is de vraag die je elke keer in het chatvenster typt.

Het model weegt deze lagen verschillend. De systeem-prompt wint bijna altijd. Daarna komt jouw instructie-prompt, en dan pas de losse gebruikersvraag. Handig om te weten, want het betekent dat wat je als gebruiker typt minder zwaar weegt dan wat je als bouwer hebt ingesteld. Wil je dat je assistent iets echt altijd doet? Zet het in de instructie-prompt, niet in een losse chat.

Hoe Sterc.ONE hier anders mee omgaat

Tot nu toe ging dit artikel over AI in het algemeen. De principes gelden voor elke tool: ChatGPT, Claude, Gemini, noem maar op. Maar er is één onderwerp waar het wel uitmaakt welk platform je kiest, en dat is het context window zelf.

Ons eigen AI-platform Sterc.ONE werkt anders dan de bekende chatbots. Waar ChatGPT je vastzet op de modellen van OpenAI en Claude op die van Anthropic, ben je bij Sterc.ONE niet gebonden aan één leverancier. Je kunt kiezen uit de topmodellen van OpenAI, Anthropic, Google en Mistral, en per taak bepalen welke het beste past.

Voor het context-window-verhaal maakt dat een flink verschil:

je kiest per taak het model met de ruimte die je nodig hebt. Voor een snelle vraag pak je een licht model, voor een groot document een model met veel context
je hebt geen last van extra limieten die consumenten-apps soms bovenop het model leggen om kosten of snelheid te beheersen
je bent niet afhankelijk van één leverancier. Komt er een nieuw model met meer ruimte of betere prestaties? Dan schakel je over zonder je hele werkwijze opnieuw in te richten
je kunt verschillende modellen combineren in één workflow, wat handig is als een taak uit meerdere stappen bestaat die elk een ander type model goed afhandelt

Voor ons klopt dit met hoe we naar AI kijken. De tools veranderen snel, en wat vandaag het beste model is, is dat volgende maand misschien niet meer. Door je niet vast te leggen op één platform, blijf je mee met waar de ontwikkeling heen gaat.

Samengevat

AI is geen magie. Het is een werktafel met beperkte ruimte, waar alles wat je erop legt een plek inneemt. Als je dat eenmaal snapt, wordt heel veel gedrag van AI-tools ineens logisch. En belangrijker: je weet wat je kunt doen om er betere resultaten uit te halen.

Kort de kern:

houd je gesprekken kort en gefocust
start opnieuw als het hapert
zet kennis in bestanden, gedrag in prompts
knip grote taken op in kleine stappen
wees zuinig met wat je uploadt

Met deze gewoontes haal je veel meer uit dezelfde tool, zonder dat je iets aan de techniek hoeft te veranderen. Gewoon slimmer omgaan met de ruimte die er is.