abonnement Unibet Coolblue Bitvavo
  dinsdag 27 juli 2010 @ 07:59:18 #1
107951 JortK
Immer kwaliteitsposts
pi_84536196
Wanneer ik in LinkedIn een link wil sharen kan ik een URL pasten in de betreffende tekstbox, en haalt LinkedIn vervolgens de eerste alinea op van de betreffende pagina:



Weet iemand hoe dit wordt gedaan en hoe ik dit zelf kan realiseren in bijvoorbeeld PHP?
  dinsdag 27 juli 2010 @ 10:47:02 #2
4159 GI
Nee ik heet geen JOE
pi_84539791
Ik denk dat je php de html van de pagina moet op laten halen en die html dan vervolgens op een slimme manier parsen. Is een best complex geheel denk ik aangezien iedereen zijn content op een andere manier verspreidt en je wel het juiste element moet strippen om het juiste snippet naar voren te krijgen.
  dinsdag 27 juli 2010 @ 11:19:00 #3
107951 JortK
Immer kwaliteitsposts
pi_84540984
quote:
Op dinsdag 27 juli 2010 10:47 schreef GI het volgende:
Ik denk dat je php de html van de pagina moet op laten halen en die html dan vervolgens op een slimme manier parsen. Is een best complex geheel denk ik aangezien iedereen zijn content op een andere manier verspreidt en je wel het juiste element moet strippen om het juiste snippet naar voren te krijgen.
Dat klopt maar volgens mij moet het makkelijker kunnen.

Bestaat er niets iets waarmee je een soort RSS achtige respons kan ophalen van een specificieke URL?
pi_84541027
Zou het niet gewoon de META description ofzo zijn?
  dinsdag 27 juli 2010 @ 11:23:48 #5
4159 GI
Nee ik heet geen JOE
pi_84541191
quote:
Op dinsdag 27 juli 2010 11:19 schreef JortK het volgende:

[..]

Dat klopt maar volgens mij moet het makkelijker kunnen.

Bestaat er niets iets waarmee je een soort RSS achtige respons kan ophalen van een specificieke URL?
Niet iedere site heeft RSS echter. En daarbij is het ook nog zo dat als je naar een item linkt wat twee maanden oud is het niet meer in de RSS feed terug te vinden zal zijn. RSS feeds zijn vaak gelimiteerd op maximaal de laatste 20 artikelen die gepost zijn.
  dinsdag 27 juli 2010 @ 11:28:25 #6
4159 GI
Nee ik heet geen JOE
pi_84541398
quote:
Op dinsdag 27 juli 2010 11:20 schreef Xcalibur het volgende:
Zou het niet gewoon de META description ofzo zijn?
Ik betwijfel het. 9 van de 10 keer is de meta description van een site iets zoals
1<meta name="description" content="The corporate blog of LinkedIn, the world’s largest professional networking site."> 
en daar haal je niet de artikel details uit naar voren.
Het voorbeeld dat gegeven is staat hier
http://blog.linkedin.com/2010/04/21/linkedin-sharing-news/

de enige manier om daar de juiste snippet uit te halen is om de html door te lopen, te zoeken naar
<div class='snap_preview'><p> en de daarop volgende text op te pakken.

1
2
     <div class='snap_preview'><p>Most of us turn to blogs, newspapers, magazines, trade publications, and more when we’re looking for the info we need.  But just as often, we count on our colleagues and peers to point out the stuff we should read.</p> 
<p>That’s why we’ve just made some incremental changes to how sharing works on LinkedIn. Here’s a video about how it works and a longer list of features and functionality around this new feature that you can start using today.</p> 
  dinsdag 27 juli 2010 @ 11:30:07 #7
107951 JortK
Immer kwaliteitsposts
pi_84541467
quote:
Op dinsdag 27 juli 2010 11:28 schreef GI het volgende:

[..]

Ik betwijfel het. 9 van de 10 keer is de meta description van een site iets zoals
[ code verwijderd ]

en daar haal je niet de artikel details uit naar voren.
Het voorbeeld dat gegeven is staat hier
http://blog.linkedin.com/2010/04/21/linkedin-sharing-news/

de enige manier om daar de juiste snippet uit te halen is om de html door te lopen, te zoeken naar
<div class='snap_preview'><p> en de daarop volgende text op te pakken.
[ code verwijderd ]


Hebben de meeste sites snap_preview dan?
  dinsdag 27 juli 2010 @ 11:32:21 #8
4159 GI
Nee ik heet geen JOE
pi_84541551
Het lijkt mij dus dat je dit pas goed door kan voeren als je een database bij gaat houden naar domein en het betreffende stukje html waar je naar moet zoeken.

Het stuk script dat de snippet ophaalt is geeneens heel complex, maar je zal wel een uitgebreide database moeten hebben voor de grotere sites. Je zou nog kunnen kijken naar de grotere aanbieders van blogsoftware waar je de standaarden ook van gebruiken.
1Powered by <a href="http://www.wordpress.org" title="WordPress" target="_blank">WordPress</a>
kan je dan meteen laten bekijken of een 'nieuwe' site door WP bestuurd wordt. Dat moet je alleen wel bij iedere keer dat je de site bekijkt opnieuw bekeken worden, want misschien veranderd het achterliggende CMS wel. En dan heb je nog niet de verschillende versien van een CMS die misschien anders dingen tonen.
  dinsdag 27 juli 2010 @ 11:34:32 #9
4159 GI
Nee ik heet geen JOE
pi_84541642
quote:
Op dinsdag 27 juli 2010 11:30 schreef JortK het volgende:

[..]

Hebben de meeste sites snap_preview dan?
Nee, dat heb ik uit de code van de linked in pagina gehaald. Als je kijkt wat je wil hebben in die source zie je dat voor linked in je moet zoeken naar snap_preview.
voor de FOK! frontpage moet je weer kijken naar :
<div class="itemBody" id="itemBody">
Voor tweakers moet je kijken naar
<div class="article"><p class="lead">

En zo zal iedere custom site zijn eigen div-structuur hebben.
  dinsdag 27 juli 2010 @ 11:37:39 #10
107951 JortK
Immer kwaliteitsposts
pi_84541756
quote:
Op dinsdag 27 juli 2010 11:20 schreef Xcalibur het volgende:
Zou het niet gewoon de META description ofzo zijn?
Die is het niet, deze pagina heeft die niet en toch pakt LinkedIn hem. :)
  dinsdag 27 juli 2010 @ 11:38:15 #11
107951 JortK
Immer kwaliteitsposts
pi_84541782
quote:
Op dinsdag 27 juli 2010 11:34 schreef GI het volgende:

[..]

Nee, dat heb ik uit de code van de linked in pagina gehaald. Als je kijkt wat je wil hebben in die source zie je dat voor linked in je moet zoeken naar snap_preview.
voor de FOK! frontpage moet je weer kijken naar :
<div class="itemBody" id="itemBody">
Voor tweakers moet je kijken naar
<div class="article"><p class="lead">

En zo zal iedere custom site zijn eigen div-structuur hebben.
Lijkt me niet dat LinkedIn dat zo oplost. :)
  dinsdag 27 juli 2010 @ 11:50:00 #12
4159 GI
Nee ik heet geen JOE
pi_84542268
Ik denk wel dat ze het zo oplossen. Probeer maar eens een voorbeeld te krijgen van fok.nl


Dat doet hij niet, hij geeft wel de meta description als hij hem niet kent trouwens viel me op bij een andere website die ik probeerde.

Ik kan me geen andere manier voorstellen om dit op te lossen. Er zijn dermate veel sites en dermate veel manieren van het tonen van gegevens dat je het niet generiek op kan lossen, dat zou je toch echt op moeten lossen met een eigen database die de verschillende formats aankan.
  dinsdag 27 juli 2010 @ 12:20:27 #13
107951 JortK
Immer kwaliteitsposts
pi_84543560
Toch blijft het raar dat ik een pagina heb zonder meta description maar dat hij hem toch pakt... hoe zal die die uitzonderingen oppakken?
  dinsdag 27 juli 2010 @ 12:24:14 #14
4159 GI
Nee ik heet geen JOE
pi_84543703
quote:
Op dinsdag 27 juli 2010 12:20 schreef JortK het volgende:
Toch blijft het raar dat ik een pagina heb zonder meta description maar dat hij hem toch pakt... hoe zal die die uitzonderingen oppakken?
Volgens mij dus op de manier die ik aangeef. Linkedin heeft een tabel met domein/structuur en als hij een domein _niet_ kent pakt hij de meta description als die aanwezig is.
  dinsdag 27 juli 2010 @ 13:16:28 #15
107951 JortK
Immer kwaliteitsposts
pi_84546031
quote:
Op dinsdag 27 juli 2010 12:24 schreef GI het volgende:

[..]

Volgens mij dus op de manier die ik aangeef. Linkedin heeft een tabel met domein/structuur en als hij een domein _niet_ kent pakt hij de meta description als die aanwezig is.
Ik ga eens kijken of ik er wat voor kan fabrieken. :)
pi_84606806
Zoiets komt neer op een gegevenstabel / database met daarin vaste 'patronen' (desnoods aan een domein/website/systeem/cms gekoppeld of afhankelijk daarvan), en uiteraard een flinke dosis regular expressions. Je zult echter, hoe goed je parser ook is, altijd overgeleverd zijn aan de genade van de website die je probeert te linken. Je kunt dan echter nog catches maken, die alsnog de META gegevens uitlezen van de te koppelen pagina, mocht je eigen parser geen degelijke resultaten opleveren.

Een goed voorbeeld is marktplaats, die heeft op veel pagina's niet echt een lapje tekst als 'content', en ik merk dat bijvoorbeeld ook LinkedIn in dat geval de META gegevens oppikt:



Let wel, dit is programmeertechnisch niet heel bijzonder moeilijk om te maken, maar dit vergt heel veel onderhoud-, controle- en testwerk. :)
  donderdag 29 juli 2010 @ 07:12:18 #17
2738 Knut
Loyal Dog
pi_84615592
Je kan het onderhoud nog wel wat versimpelen door een 'fouten' tabel op te nemen welke link/domein in zich opgenomen krijgt als er een site gelinkt wordt die niet wordt gevonden. Op die manier kan je de input van je gebruikers gebruiken om de miljarden sites van het web te filteren naar degene die op jouw site gelinked worden.
[20:25] [Knut] Een vrouw met een kerst fetish...
[20:26] [Knut] Niet zo letterlijk dat ik haar met baard om moet HOHOHOEN
[20:26] [Knut] maar je snapt het idee wel.
abonnement Unibet Coolblue Bitvavo
Forum Opties
Forumhop:
Hop naar:
(afkorting, bv 'KLB')