quote:
Op zaterdag 21 april 2007 02:53 schreef doka het volgende:Ik ben erg nieuwsgierig naar de implementatie van het een en ander. Kun je daar wat over vertellen, JeRa?
Bijvoorbeeld:
- Hou je je dbase up to date door 1x per dag alle nieuwe posts op te halen?
Nee, de hoofd'lijn' van de updates wordt gebaseerd op de active topics. Topics die daarin voorkomen krijgen extra aandacht en worden goed bijgehouden en geüpdatet
quote:
En hoe heb je je dbase tot je het begon bij te houden gevuld? Gewoon door alle posts van 1 tot en met 143xxx op te halen?
Nee, posts kun je hier niet afzonderlijk benaderen, dus ik heb het per topic gedaan. Hij greep een random selectie tussen topicid 1 en het hoogst bekende topicid tot dan toe, en vervolgens ging ie die opvragen. Dat was een tergend langzaam proces (omdat ik de servers niet teveel wilde belasten) en dat heeft dan ook de nodige tijd gekost (denk aan maanden).
quote:
- Hoe haal je posts op? Parse je de index-pagina's van subfora en de complete topics?
Ik haal de topics op en parse daaruit de posts.
quote:
- Sla je ook de complete inhoud van de posts van de posts op?
Nope. Ooit wel voor m'n zoekmachine, maar zoiets vertraagt het indexproces aanzienlijk.
quote:
- Is je dbase tot op zekere hoogte ook 'live', in die zin dat posts die ge-edit worden ook geupdate worden en topics die verplaatst worden in je dbase ook 'verplaatst' worden?
Dit is hét probleem als je te maken hebt met een index bijhouden zonder 'bronnen' te hebben van de mutaties. Nu is er wel een bron, bijvoorbeeld de active topics, maar die vertellen natuurlijk niet echt veel. Wat ik o.a. doe:
1) Topics waarvan ik niets hoor worden op een zeker moment alsnog opgehaald voor de zekerheid
2) Merges worden gedetecteerd door te zien dat posts opeens in een ander topic staan (waardoor de gegevens over het oude topic opnieuw worden opgevraagd)
3) Af en toe worden subforalistings opgehaald om zo nog even een crosscheck te doen
4) Af en toe verander ik iets in het indexproces of in de gewenste data, waarbij de topics van het oude systeem alsnog ververst worden
Maar dit is natuurlijk ver van gewenst
kan er niets aan doen helaas.
quote:
- Hoeveel http-requests heb je ongeveer nodig voor het updaten van je dbase met alle posts van de voorbije 24 uur?
Ergens tussen de 1000 en 2000, afhankelijk van hoe druk het is
quote:
- Welke taal gebruik je? (Perl, WWW::Mechanize?)
PHP.
Stuur een PM naar me met als onderwerp stats help voor je userstatistieken!Boom Gaspar - Matt Cameron - Jeff Ament - Stone Gossard - Mike McCready - Eddie Vedder.