abonnement Unibet Coolblue Bitvavo
pi_8074645
Vervolg op Hoe sla je 3 jaar Fok! op op je harde schijf?

Ik haal met Oracle een inlees- en verwerksnelheid van 200 topics (5684920 bytes) in 98 seconden, maar aangezien er al een aantal goede oplossingen worden gegeven met behulp van oa PHP/MySQL ga ik mijn (incompatible) oplossing niet verder uitwerken.

"If you are depressed you shouldn't be in C major!" - Rick Beato
pi_8074694
wbt dat lijstje. kben nergens mee bezig
  donderdag 23 januari 2003 @ 20:52:37 #3
32266 thetruth
juvat inconcessa voluptas
pi_8075068
kijk ff in t oude topic..er is iemand die zich aanbiedt
| Foto's |
pi_8075144
quote:
Op donderdag 23 januari 2003 21:05 schreef MeAndMyself het volgende:
kijk ff in t oude topic..er is iemand die zich aanbiedt
Klopt. Er zijn zelfs meerdere mensen mee bezig. Ik had ook toegezegd er even naar te kijken, ben daar vervolgens gisteren door oa de verkiezingen niet aan toegekomen en heb dat dus vandaag gedaan. Aangezien er al heel aardige oplossingen naar voren kwamen, laat ik de eer van het solliciteren naar de functie van Arcee toch even voorbij gaan.
"If you are depressed you shouldn't be in C major!" - Rick Beato
pi_8075488
maar ik heb nog geen enekele reactie van een rooie gezien...:?
Bij Disneykand sluit alles, behalve de souvenirwinkels
pi_8075511
quote:
Op donderdag 23 januari 2003 21:28 schreef mabit het volgende:
maar ik heb nog geen enekele reactie van een rooie gezien...:?
Tijn had contact met ze opgenomen, dus ik verwacht eerlijk gezegd dat hij vanzelf wel ergens in dit topic komt opduiken (voordat we met een man of 10 een onbedoelde DDoS-attack uitvoeren op FoK! ).
"If you are depressed you shouldn't be in C major!" - Rick Beato
pi_8075573
quote:
Op donderdag 23 januari 2003 21:30 schreef Litpho het volgende:

[..]

Tijn had contact met ze opgenomen, dus ik verwacht eerlijk gezegd dat hij vanzelf wel ergens in dit topic komt opduiken (voordat we met een man of 10 een onbedoelde DDoS-attack uitvoeren op FoK! ).


ik geloof dat die al aardig bezig zijn, maar op zich moet dat geen probleem zijn, t.net haalt ook gemakkelijk 20 pageviews per seconde dus dan moet dit toch ook niet zon probleem opleveren?!!
Bij Disneykand sluit alles, behalve de souvenirwinkels
pi_8075601
quote:
Op donderdag 23 januari 2003 21:33 schreef mabit het volgende:
ik geloof dat die al aardig bezig zijn, maar op zich moet dat geen probleem zijn, t.net haalt ook gemakkelijk 20 pageviews per seconde dus dan moet dit toch ook niet zon probleem opleveren?!!
Dat verwacht ik ook niet, maar toch is het wel zo beleefd om even te overleggen met de crew over het laten runnen van een crawler, laat staan een stuk of tien tegelijk. Het levert toch een hogere belasting dan dat die users normaal zouden leveren.
"If you are depressed you shouldn't be in C major!" - Rick Beato
pi_8077167
wat ik niet begrijp is het volgende:

/usr/bin/perl -w

use strict;

use LWP::Simple;
my $MaxnumberOfTopics=1;
for (my $Topic=1; $Topic<=$MaxnumberOfTopics; ++$Topic)
{
#my $Content=get("http://forum.fok.nl/showtopic.php/$Topic/1/255");
my $Content=get("http://forum.fok.nl/showtopic.php/257667/1/255");
my @Messages=split /);message(/,$Content;
$Messages[0]=~s/.*?<SCRIPT TYPE="text\/javascript">message(//;
$Messages[-1]=~s/</SCRIPT>.*//;

for (@Messages)
{
my @Info=Parse_Msg($_);
my ($Poster,$Message,$Sub,$Img,$Date)=@Info[1,8,3,4,6];
print "Poster: $Poster\n";
print "Date: $Date\n";
print "Sub: $Sub\n";
print "Img: $Img\n";
#print "Message: $Message\n";
};
};

sub Parse_Msg
{
my $Text = shift;
my @New = ();
push(@New, $+) while $Text =~ m{"([^\"\\]*(?:\\.[^\"\\]*)",?| ([^,]+),?| ,}gx;
push(@New, undef) if substr($Text, -1,1) eq ',';
return @New;
};

In welk bestand laat ie de uitvoer nou?

[Dit bericht is gewijzigd door KonnieKipke op 23-01-2003 22:59]

  vrijdag 24 januari 2003 @ 02:00:08 #11
17087 Hadrian
Publius Aelius Hadrianus
pi_8080694
quote:
return @New
Return value, dus als je die functie aanroept, krijg je dat als waarde terug.
Kan je mee doen wat je wil, verderparsen, naar stdout sturen of wat dan ook .
Hadrian.Net Nu mét filemeldingen en weerinfo
Hadrian Forum voor als je Fok! ontgroeid bent :+
  vrijdag 24 januari 2003 @ 02:09:10 #12
12221 Tijn
Powered by MS Paint
pi_8080780
quote:
Op donderdag 23 januari 2003 21:30 schreef Litpho het volgende:

[..]

Tijn had contact met ze opgenomen, dus ik verwacht eerlijk gezegd dat hij vanzelf wel ergens in dit topic komt opduiken (voordat we met een man of 10 een onbedoelde DDoS-attack uitvoeren op FoK! ).


Ik heb alle admins gemaild over de kwestie, maar heb tot op heden nog niks gehoord. Tot die tijd zou ik nog niet al te veel online zetten en wil ik mn eigen computer ook nog niet als database ter beschikking stellen, maar uiteraard is een ieder wel vrij, zo lijkt me, om wat testscripts te proberen etc
pi_8080866
quote:
Op vrijdag 24 januari 2003 02:09 schreef Tijn het volgende:

[..]

Ik heb alle admins gemaild over de kwestie, maar heb tot op heden nog niks gehoord. Tot die tijd zou ik nog niet al te veel online zetten en wil ik mn eigen computer ook nog niet als database ter beschikking stellen, maar uiteraard is een ieder wel vrij, zo lijkt me, om wat testscripts te proberen etc


Waarom zou je niets on line mogen zetten? Afgezien van copyright zie ik geen problemen aangezien het verkeer van je eigen datalimiet afgaat.
Ik heb inmiddels zo'n 240.000 topics binnen (tel uit het aantal reacties) en loopt de database ook al vol.
Ik vraag me nu eigenlijk af welke exotische vraagstukken er straks komen om op te queryen (en maak me dus niet zo druk meer over die admins aangezien ik nu toch bijna alles al binnen heb ).
123
  vrijdag 24 januari 2003 @ 02:37:16 #14
12221 Tijn
Powered by MS Paint
pi_8080981
quote:
Op vrijdag 24 januari 2003 02:20 schreef K3 het volgende:

[..]

Waarom zou je niets on line mogen zetten?


Oh van mij mag je best wat online zetten, maar tis natuurlijk niet netjes om alvast een uitgebreid lijstjes topic te openen (al dat niet met url) terwijl de vraag of er wel toestemming gegeven is nog loopt
pi_8081023
quote:
Op vrijdag 24 januari 2003 02:37 schreef Tijn het volgende:

[..]

Oh van mij mag je best wat online zetten, maar tis natuurlijk niet netjes om alvast een uitgebreid lijstjes topic te openen (al dat niet met url) terwijl de vraag of er wel toestemming gegeven is nog loopt


Ik had niet begrepen dat er toestemming voor nodig was.
En aangezien alles online staat, lijkt me dat een beetje voorbarig om te vragen (ik zie online als openbaar, dus vrij om je eigen statistieken op los te laten). Komt er nog bij de vraag van Yvonne wie er toch graag stat wil gaan maken, dan lijkt het me geen probleem (toch?).
123
  vrijdag 24 januari 2003 @ 02:43:24 #16
12221 Tijn
Powered by MS Paint
pi_8081032
quote:
Op vrijdag 24 januari 2003 02:42 schreef K3 het volgende:

[..]

Ik had niet begrepen dat er toestemming voor nodig was.
En aangezien alles online staat, lijkt me dat een beetje voorbarig om te vragen (ik zie online als openbaar, dus vrij om je eigen statistieken op los te laten). Komt er nog bij de vraag van Yvonne wie er toch graag stat wil gaan maken, dan lijkt het me geen probleem (toch?).


Ik verwacht ook geen problemen, tis gewoon alleen netjes, that's all
pi_8081639
quote:
Op vrijdag 24 januari 2003 02:37 schreef Tijn het volgende:

[..]

Oh van mij mag je best wat online zetten, maar tis natuurlijk niet netjes om alvast een uitgebreid lijstjes topic te openen (al dat niet met url) terwijl de vraag of er wel toestemming gegeven is nog loopt


moet je voor het leegtrekken niet eerst iets regelen met de FOK admins, want het is niet ff nix, kost veel bandwidth ed..
The people who lost my respect will never get a capital letter for their name again.
Like trump...
pi_8082246
Arcee deed het voorheen ook zonder bezwaren van Danny
  vrijdag 24 januari 2003 @ 09:38:57 #19
29472 scoutboy
Cheap Webspace
pi_8082249
Eigenlijk zouden we het inderdaad moeten vragen maar ik heb ondertussen iemand in ons dorp zo goed gevonden om voor mijn te gaan downloaden en die is dus al bezig (Heb nu 53.000 threads. op mijn schijf)
[URL]http://www.TNGSoftware.com[/URL] Goedkoop en betrouwbaar!
pi_8083027
Ik denk dat het ook niet erg is als als een paar mensen het spul wegtrekken. Erger wordt het als het enkele tientallen betreft.

Vannacht waren mijn logs volgelopen, en is het importeren in de DB bij topic 181xxx blijven hangen, maar alle overtollige zooi is weggegooid, en nu is-ie weer lekker bezig (er staan nu al meer dan 8 miljoen reacties in de DB).

Ik ben nu bezig met een script om de active topics bij te houden, zodat de database up to date blijft (zal wel iets worden dat nachtelijk gedraaid wordt).
beseft Yvonne wel wat ze Danny heeft aangedaan?

123
pi_8084032
quote:
Op vrijdag 24 januari 2003 02:20 schreef K3 het volgende:

[..]

Waarom zou je niets on line mogen zetten? Afgezien van copyright zie ik geen problemen aangezien het verkeer van je eigen datalimiet afgaat.
Ik heb inmiddels zo'n 240.000 topics binnen (tel uit het aantal reacties) en loopt de database ook al vol.
Ik vraag me nu eigenlijk af welke exotische vraagstukken er straks komen om op te queryen (en maak me dus niet zo druk meer over die admins aangezien ik nu toch bijna alles al binnen heb ).


Arcee maakte lijstjes met:
  • # posts per maand per user
  • # posts per maand zonder SC per user
  • # posts per subforum per user
  • kliekjes (wie post er meteen na jou/ meteen voor jou)
  • # posts per dag (topdag per user)
  • drukste minuten op Fok!
  • dat is wat ik zo uit mijn hoofd nog weet.

      vrijdag 24 januari 2003 @ 12:42:18 #22
    12221 Tijn
    Powered by MS Paint
    pi_8084486
    quote:
    Op vrijdag 24 januari 2003 12:10 schreef dolle_hond het volgende:

    [..]

    Arcee maakte lijstjes met:

  • # posts per maand per user
  • # posts per maand zonder SC per user
  • # posts per subforum per user
  • kliekjes (wie post er meteen na jou/ meteen voor jou)
  • # posts per dag (topdag per user)
  • drukste minuten op Fok!
  • dat is wat ik zo uit mijn hoofd nog weet.


    Idd, en met welke smileys elke user het meest gebruikte, welke smileys per forum het meest werden gebruikt, welke smileys over heel fok het meest werden gebruikt. Oh en natuurlijk lijstjes van topposters per subforum. En lijstjes van mensen die het vaakst een topic om zeep hielpen (als laatste postte).
    pi_8084892
    quote:
    Op vrijdag 24 januari 2003 10:56 schreef K3 het volgende:
    Ik denk dat het ook niet erg is als als een paar mensen het spul wegtrekken. Erger wordt het als het enkele tientallen betreft.

    Vannacht waren mijn logs volgelopen, en is het importeren in de DB bij topic 181xxx blijven hangen, maar alle overtollige zooi is weggegooid, en nu is-ie weer lekker bezig (er staan nu al meer dan 8 miljoen reacties in de DB).

    Ik ben nu bezig met een script om de active topics bij te houden, zodat de database up to date blijft (zal wel iets worden dat nachtelijk gedraaid wordt).
    beseft Yvonne wel wat ze Danny heeft aangedaan?


    K3, zou jij eens je scriptje willen posten dat je gebruikt om al die topics te rippen en daarna in je database te stoppen. Ik heb gister wat met wget geprutst, maar dat bouwt de oorspronkelijk html files vrolijk op.

    Alvast bedankt.

    pi_8086595
    quote:
    Op vrijdag 24 januari 2003 13:04 schreef KonnieKipke het volgende:

    [..]

    K3, zou jij eens je scriptje willen posten dat je gebruikt om al die topics te rippen en daarna in je database te stoppen. Ik heb gister wat met wget geprutst, maar dat bouwt de oorspronkelijk html files vrolijk op.

    Alvast bedankt.


    Ik gebruik daar eigenlijk twee scriptjes voor.
    Eentje slaat alle topics op op de HD als <nummer>.html
    (Gewoon een lus definiëren die begint bij 0 en eindigt bij 250000 en in die lus met wget de boel naar binnen trekken).

    Het andere scriptje gaat vervolgens langs die opgeslagen topics om te parsen en in de database te stoppen. Hoe dat scriptje werkt wil ik wel vertellen, maar ik ga geen lappen script posten.
    Eerst strip ik de pagina tot en met de <script>-tag, en alles na de </script>-tag.
    Dan houd je de javascript messages over, daar ga ik met een reguliere expressie overheen om van de message() functie een INSERT-query te maken die vervolgens in de database wordt gestopt.
    De originele pagina's houd ik wel, omdat ik met de originele data misschien nog meer wil doen (handig als ik achteraf toch nog een veldje in de DB wil stoppen).
    Zijn er nu nog meer mensen bezig met iets eigenlijk? 't Is alweer een dag of twee geleden dat ik een progress hoorde van iemand .

    Mijn progress:
    * Opruimen logfiles en overtollige troep
    * binnenhalen topics 240.000 t/m 250.000
    * in DB proppen topics 200.000 t/m 220.000 (had een foutje gemaakt, dus moest ff wat terugzetten)
    * bezig met bouwen v/e active-topics-scriptje dat 's nachts gaat draaien zodat ik er niet naar om hoef te kijken
    * op zoek naar een snellere machine (een query over enkele gigabytes uitvoeren gaat de mysql daemon ook niet in de kouwe kleren zitten, 't is maar een K6-je op 400 MHz).

    123
      vrijdag 24 januari 2003 @ 14:33:20 #25
    29472 scoutboy
    Cheap Webspace
    pi_8086694
    quote:
    Op vrijdag 24 januari 2003 14:27 schreef K3 het volgende:

    [..]

    Ik gebruik daar eigenlijk twee scriptjes voor.
    Eentje slaat alle topics op op de HD als <nummer>.html
    (Gewoon een lus definiëren die begint bij 0 en eindigt bij 250000 en in die lus met wget de boel naar binnen trekken).

    Het andere scriptje gaat vervolgens langs die opgeslagen topics om te parsen en in de database te stoppen. Hoe dat scriptje werkt wil ik wel vertellen, maar ik ga geen lappen script posten.
    Eerst strip ik de pagina tot en met de <script>-tag, en alles na de </script>-tag.
    Dan houd je de javascript messages over, daar ga ik met een reguliere expressie overheen om van de message() functie een INSERT-query te maken die vervolgens in de database wordt gestopt.
    De originele pagina's houd ik wel, omdat ik met de originele data misschien nog meer wil doen (handig als ik achteraf toch nog een veldje in de DB wil stoppen).
    Zijn er nu nog meer mensen bezig met iets eigenlijk? 't Is alweer een dag of twee geleden dat ik een progress hoorde van iemand .

    Mijn progress:
    * Opruimen logfiles en overtollige troep
    * binnenhalen topics 240.000 t/m 250.000
    * in DB proppen topics 200.000 t/m 220.000 (had een foutje gemaakt, dus moest ff wat terugzetten)
    * bezig met bouwen v/e active-topics-scriptje dat 's nachts gaat draaien zodat ik er niet naar om hoef te kijken
    * op zoek naar een snellere machine (een query over enkele gigabytes uitvoeren gaat de mysql daemon ook niet in de kouwe kleren zitten, 't is maar een K6-je op 400 MHz).


    Mijn status:

    Heb op het moment 0 t/m 50.000 in een DB zitten (en i.d.d. op schijf als <nummer>.html
    Bij ons in het dorp is iemand bezig met de rest downloaden ga ik vanavond weer langs om te kijken hoever hij is..
    Ben ook nog wat lijstjes aan het bedenken om te gaan maken... heb nu alleen top users en top smileys online

    Heb ook allemaal nie zoveel tijd...

    [URL]http://www.TNGSoftware.com[/URL] Goedkoop en betrouwbaar!
    abonnement Unibet Coolblue Bitvavo
    Forum Opties
    Forumhop:
    Hop naar:
    (afkorting, bv 'KLB')