AI, het einde van webscraping op de oude manier?

Wat is ook alweer web scraping?

Voor heel veel software engineers is het vrij normaal om data van websites af te halen en dat te gebruiken voor in- of extern gebruik. Los van de discussie of dit legaal of illegaal is . Soms zijn er gewoon nog geen API’s beschikbaar om dat te doen en dan is scraping de enige manier.

Met webscraping schrijf je code om elke element van een pagina te analyseren en vervolgens op te slaan of te verwerken. Dit was gedoe omdat je de structuur van de pagina moet kennen.

Heb je een dergelijke oplossing nodig en moeten we dit voor je opzetten?

Hoe kun je scrapen op de nieuwe manier?

De nieuwe manier is zoals iedereen wellicht weet AI. Jaja, weer die verdraaide AI. We zijn straks met z’n allen zwaar verslaafd en dan is het niet meer gratis. Dat is echter een andere discussie 🙂

Met AI hoef je je niet langer bezig te houden met de structuur, AI zoekt dit wel voor je uit en dat is precies wat we gaan doen.

Het scrapen van info van een Visma screenshot

Omdat THINGS IO recentelijk nogal wat doet met de de Visma ERP API, leek het logisch om de API eens over te slaan om te kijken hoe snel je zinvolle informatie uit een pagina van Visma kunt krijgen, in dit geval Voorraad correcties. 

We hebben via de API’s eerst even automatisch wat voorraad correcties aangemaakt, die zie je hierboven. Je weet vast wel hoe je dit zelf uit Visma kunt halen.

De aanpak via AI

Dit keer is er gekozen voor een iets andere AI tool omdat ik een artikel las van Simon Willison die een video liet analyseren waaruit een JSON response kwam. Bekijk dit artikel hier. Hij heeft hiervoor Google Studio AI gebruikt en die hadden we nog niet geprobeerd.

Gebruik van Google AI studio

Om dit te kunnen gebruiken we het goedkoopste AI model van Google AI studio, Gemini Flash 1.5. Deze kost $0.075 per 1 miljoen tokens en de prijs gaat omlaag.

Het gebruik van Google AI studio is een beetje wennen maar het is uiteindelijk redelijke eenvoudig. We maken geen volledige web scraper maar laten zien hoe je bepaalde info uit een screenshot haalt. De code om in te loggen en het screenshot te maken moet je zelf bouwen. Hieronder zie je de interface van AI studio.

Nieuwe prompt maken

Als eerste moet je een nieuwe prompt maken, die zie je links in het menu.

Vervolgens klik je op het plusje om een bestand toe te voegen, je kunt ons plaatje downloaden met de Visma voorraad correcties.

Nu moet je een prompt ingeven, gebruik:

Given this image return the first five rows in JSON. Only return the date in format DD-MM-YYYY from the column “Datum” and the total amount from the column “Totaal aantal. Also add the totals of column “Totaal aantal” as a separate json key.

Vervolgens heb ik de JSON mode aangezet in het rechter scherm van AI studio.

Het resultaat

Na het ingeven van de prompt hebben we deze uitgevoerd. Het resultaat is als volgt:

{“rows”: [{“Datum”: “20-10-2024”, “Totaal aantal”: “-141.00”}, {“Datum”: “19-10-2024”, “Totaal aantal”: “-203.00”}, {“Datum”: “18-10-2024”, “Totaal aantal”: “1.000.00”}, {“Datum”: “18-10-2024”, “Totaal aantal”: “-8.799.00”}, {“Datum”: “16-10-2024”, “Totaal aantal”: “-1.734.00”}], “total”: “-11.077.00”}

Mooi resultaat voor 1-2 minuten werk. Nu hoor ik de nai-sayers al roepen achter in de zaal, dat kan ik ook met mijn tools. Precies, met alle tools die je eerst moet configureren!

Conclusie en waarschuwing

Dat we met z’n allen aan het infuus liggen van de grote techbedrijven is niet ideaal. De AI verslaving zet goed door en ergens aan het einde van de rit komt de rekening. Echter, vooralsnog dalen de token prijzen bij een aantal leveranciers en dat is gunstig.

Zelf denk ik wel dat net zoals bij alle andere SaaS diensten de kosten de pan uit gaan rijzen. Een ondernemer moet elke maand abonnementen betalen en je moet goed analyseren wat nuttig is.

De impact van alle energie vretende data centers is niet gunstig en daar moet nog een oplossing voor komen. 

Related Post