Ik werk intussen aan een eigenbouw oplossing.
Tabel met websites in de database. Doorloop de tabel met links, scan de pagina op interne urls en sla die op in de tabel. Strip de inhoud van de pagina tot op de kale tekst (alle html/java/style etc weg) maak daar een hash van. Sla die hash op. Scan met intervallen de pagina's. Is er iets gewijzigd wordt er een nieuwe hash aangemaakt. Record markeren als gewijzigd. Linkje naar de pagina om te bekijken. met cronjobs, respecteerd robots.txt, kijkt naar level, oftewel diepte qua links op de site. Hoe verder weg hoe minder vaak gescand wordt.
Basis werkt. Laatste "grote" probleem is websites met bijvoorbeeld kalenders, of een gezellige datum of bezoekersteller. Die zijn altijd anders. Of ik strip die content via ingewikkelde voorwaarden. Of er wordt gekeken naar het verschil tussen oude en nieuwe pagina. Wijkt die inhoud meer dan zeg 10% af, is er meer veranderd dan een paar getalletjes in een kalender.
Nu wordt ook de gestripte inhoud nog opgeslagen zodat ik kan kijken wat het verschil is tussen de oude en nieuwe pagina's om zo beter te kunnen analyseren hoe ik verschil moet interpreteren.
Zal nooit in de buurt komen van "productie-software" maar het werkt en houd mij van de straat.
Toe bie kontinjoewt