RSS achtig nieuws harvester

DIG Digital Corner

Alles wat je altijd al over computers, hardware, software, internet en elektronische gadgets had willen weten, maar niet op Tweakers.net durft te vragen.

Je bent niet ingelogd. Klik hier om in te loggen of hier om een gratis account aan te maken.

actieve topics nieuwe topics

abonnement Unibet Coolblue Bitvavo

actieve topics nieuwe topics

abonnement Unibet Coolblue Bitvavo

zaterdag 19 september 2015 @ 16:16:10 #1

beerten

Hoi,

in lang vervlogen tijden was er RSS. Ik zoek een tooltje om nieuws van door mij geselecteerde sites te halen. Dit om het nieuws van de sites te kunnen volgen.
Uiteraard zijn hier tools voor. Maar welke?

Als ik maar zelf mijn targets kan opgeven. Trefwoorden werkt niet, dan had ik google alert wel gebruikt.
Zou helemaal te gek zijn als er plugins zijn voor Thunderbird. Android app, windows progje (oud woord voor app) Website met aanmelding die mail verstuurt bij verandering websites. Whatever.

Iemand ervaring en linkje naar?

Donald Duck held zaterdag 19 september 2015 @ 16:40:35 #2

__Saviour__

Superstapelsmoor op Kristel

Best veel sites hebben nog altijd een RSS-feed, zo lees ik ook nog steeds nieuws van m'n favoriete sites. Soms zit het wel goed verstopt

❤ Rozen zijn rood ❤
❤ Viooltjes zijn blauw ❤
❤ Kristel, ik hou van jou! ❤

zaterdag 19 september 2015 @ 16:58:19 #3

beerten

quote:
Op zaterdag 19 september 2015 16:40 schreef __Saviour__ het volgende:
Best veel sites hebben nog altijd een RSS-feed, zo lees ik ook nog steeds nieuws van m'n favoriete sites. Soms zit het wel goed verstopt

De sites die ik in de gaten wil houden niet. Die ontstijgen het huis-tuin-keuken-geknutsel niet.
En enkele facebookpagina's. En facebook ondersteunt sinds enkele maanden geen RSS meer.

zaterdag 19 september 2015 @ 17:26:05 #4

Hallmark

Geverifieerde account

Kun je niet iets in elkaar knutselen met een RSS reader zoals feedly, en dan zelf RSS feeds bakken met IFTTT?

Geinspireerd door historische gebeurtenissen en karakters. Dit werk van fictie was ontworpen, ontwikkeld en geproduceerd door een multicultureel team van verschillende religies en geloven.

zondag 11 oktober 2015 @ 18:48:30 #5

beerten

Ik werk intussen aan een eigenbouw oplossing.
Tabel met websites in de database. Doorloop de tabel met links, scan de pagina op interne urls en sla die op in de tabel. Strip de inhoud van de pagina tot op de kale tekst (alle html/java/style etc weg) maak daar een hash van. Sla die hash op. Scan met intervallen de pagina's. Is er iets gewijzigd wordt er een nieuwe hash aangemaakt. Record markeren als gewijzigd. Linkje naar de pagina om te bekijken. met cronjobs, respecteerd robots.txt, kijkt naar level, oftewel diepte qua links op de site. Hoe verder weg hoe minder vaak gescand wordt.
Basis werkt. Laatste "grote" probleem is websites met bijvoorbeeld kalenders, of een gezellige datum of bezoekersteller. Die zijn altijd anders. Of ik strip die content via ingewikkelde voorwaarden. Of er wordt gekeken naar het verschil tussen oude en nieuwe pagina. Wijkt die inhoud meer dan zeg 10% af, is er meer veranderd dan een paar getalletjes in een kalender.
Nu wordt ook de gestripte inhoud nog opgeslagen zodat ik kan kijken wat het verschil is tussen de oude en nieuwe pagina's om zo beter te kunnen analyseren hoe ik verschil moet interpreteren.

Zal nooit in de buurt komen van "productie-software" maar het werkt en houd mij van de straat.

Toe bie kontinjoewt

actieve topics nieuwe topics

abonnement Unibet Coolblue Bitvavo

Forum Opties
Forumhop:
Hop naar:	(afkorting, bv 'KLB')

» digital corner

» digital corner