beerten | zaterdag 19 september 2015 @ 16:16 |
Hoi, in lang vervlogen tijden was er RSS. Ik zoek een tooltje om nieuws van door mij geselecteerde sites te halen. Dit om het nieuws van de sites te kunnen volgen. Uiteraard zijn hier tools voor. Maar welke? Als ik maar zelf mijn targets kan opgeven. Trefwoorden werkt niet, dan had ik google alert wel gebruikt. Zou helemaal te gek zijn als er plugins zijn voor Thunderbird. Android app, windows progje (oud woord voor app) Website met aanmelding die mail verstuurt bij verandering websites. Whatever. Iemand ervaring en linkje naar? | |
__Saviour__ | zaterdag 19 september 2015 @ 16:40 |
Best veel sites hebben nog altijd een RSS-feed, zo lees ik ook nog steeds nieuws van m'n favoriete sites. Soms zit het wel goed verstopt | |
beerten | zaterdag 19 september 2015 @ 16:58 |
De sites die ik in de gaten wil houden niet. Die ontstijgen het huis-tuin-keuken-geknutsel niet. En enkele facebookpagina's. En facebook ondersteunt sinds enkele maanden geen RSS meer. | |
Hallmark | zaterdag 19 september 2015 @ 17:26 |
Kun je niet iets in elkaar knutselen met een RSS reader zoals feedly, en dan zelf RSS feeds bakken met IFTTT? | |
beerten | zondag 11 oktober 2015 @ 18:48 |
Ik werk intussen aan een eigenbouw oplossing. Tabel met websites in de database. Doorloop de tabel met links, scan de pagina op interne urls en sla die op in de tabel. Strip de inhoud van de pagina tot op de kale tekst (alle html/java/style etc weg) maak daar een hash van. Sla die hash op. Scan met intervallen de pagina's. Is er iets gewijzigd wordt er een nieuwe hash aangemaakt. Record markeren als gewijzigd. Linkje naar de pagina om te bekijken. met cronjobs, respecteerd robots.txt, kijkt naar level, oftewel diepte qua links op de site. Hoe verder weg hoe minder vaak gescand wordt. Basis werkt. Laatste "grote" probleem is websites met bijvoorbeeld kalenders, of een gezellige datum of bezoekersteller. Die zijn altijd anders. Of ik strip die content via ingewikkelde voorwaarden. Of er wordt gekeken naar het verschil tussen oude en nieuwe pagina. Wijkt die inhoud meer dan zeg 10% af, is er meer veranderd dan een paar getalletjes in een kalender. Nu wordt ook de gestripte inhoud nog opgeslagen zodat ik kan kijken wat het verschil is tussen de oude en nieuwe pagina's om zo beter te kunnen analyseren hoe ik verschil moet interpreteren. Zal nooit in de buurt komen van "productie-software" maar het werkt en houd mij van de straat. Toe bie kontinjoewt |