Ankündigung

Einklappen
Keine Ankündigung bisher.

Alle Links einer Seite - Kombination aus preg_match und str_pos

Einklappen

Neue Werbung 2019

Einklappen
X
  • Filter
  • Zeit
  • Anzeigen
Alles löschen
neue Beiträge

  • Alle Links einer Seite - Kombination aus preg_match und str_pos

    Hi,

    Ich bin immer noch dabei, meinen Script zu schreiben, der alle Links meiner
    Seite sammelt und speichert.

    PHP-Code:
    <?php 
     

    $url 
    'http://www.google.de';
    $input = @file_get_contents($url) or die("Could not access file: $url"); 
    $regexp "<a\s[^>]*href=(\"??)([^\" >]*?)\\1[^>]*>(.*)<\/a>"

    if(
    preg_match_all("/$regexp/siU"$input$matchesPREG_SET_ORDER)) { 

    $i=1;
    foreach(
    $matches as $match) { # $match[2] = link address # $match[3] = link text } }
    $linkaddress $match[2];
    $linktext $match[3];

    echo 
    $i."<br>";
    echo 
    "linktext:".strip_tags($linktext)."<br>";
    echo 
    "linkaddress: <a href=\"http://www.google.de".$linkaddress."\">http://www.google.de".$linkaddress."</a><br><br>";
    $i++;
    } }

    ?>
    Klappt für normale Links soweit auch ganz gut,versteh mittlerweile sogar ein wenig mehr von der regulären Ausdrücken . Nur leider nicht genug, um die jetzt noch nach all den Sonderfällen filtern zu lassen. (z.B. einfache Anker # oder Punkte vor Verzeichnissen.) Daher jetzt meine Frage:
    Wenn ich bereits alle Links der Startseite gesammelt habe, ist es dann doll
    Ressourcen fressend, wenn ich jetzt mit str_pos nach Ankern suche?
Lädt...
X