| | | | |
| |||||||
| Off-Topic Diskussionen Mach mal Pause vom Programmieren! |
|
| | LinkBack | Themen-Optionen | Thema bewerten |
| | |
| PHP Code Flüsterer Registriert seit: 21.08.2005 Beiträge: 4682 PHP-Kenntnisse: Fortgeschritten | |
| | ||||
| Erfahrener Benutzer Registriert seit: 14.06.2009
Beiträge: 1.729
PHP-Kenntnisse: Fortgeschritten ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() | Zitat:
Es ist wichtig, solche Crawler „skalierbar“ zu schreiben, womit ich erst mal nur meine, dass eine 30 MB HTML-Datei sie nicht abstürzen lassen sollte, weil im Code explode(' ', file_get_contents($url)) steht oder so und das Memory Limit nicht passt. ![]() Zitat:
Zitat:
Ich habe selbst mal an einem Algorithmus geschrieben, der die „Ähnlichkeit“ von Texten berechnet, um einen „Dies könnte Sie auch interessieren“-Bereich zu füllen. Sagen wir mal so: Bei hinreichend langen Texten, die sich thematisch hinreichend ähneln und unterscheiden, waren die Resultate – na ja – hinreichend okay. Das ist aber kein Vergleich zu einer manuellen Kategorisierung über beispielsweise Tags, da schon auffällt, dass ein Algorithmus die Auswahl getroffen hat. Außerdem ist die Berechnung nicht gerade günstig gewesen, obwohl ich jeden Trick im Buch angewendet habe (außer dem, nicht PHP zu verwenden Ohne Anteilsverhältnisse der Wörter wird es wohl nicht gehen, aber das Problem von Verhältnissen ist dieser SEO-Teufelskreis: Suchmaschine findet heraus, dass der Hauptbegriff optimalerweise jedes 25. Wort auf der Seite sein sollte. Alle Leute füllen ihre thematisch nicht maximal relevanten Seiten so. Die Suchmaschine muss ihren Wertungsalgorithmus anpassen, um diese Seiten abzuwerten. Usw. Das führt zu diesem schrecklichen Zustand, Seiten für Suchmaschinen zu schreiben und nicht für Nutzer, obwohl die Suchmaschinen alles daran setzen, genau das zu bekämpfen. Natürlich wird das für deinen Crawler niemand machen, weil es keinen Vorteil bringt, aber was ich sagen will: Diese auf relativen Anteilen basierende Wertung ist mitunter schwierig. | |||
| | |
| | |
| Neuer Benutzer Registriert seit: 31.10.2009
Beiträge: 13
PHP-Kenntnisse: Fortgeschritten ![]() | Das stimmt. Dann will ich auch nicht gegen die robots.txt verstoßen. Aber es wäre ein evtl. Anwendungsgebiet - und sei es nur in einem Intranet. @mermshaus: Ja, für große Suchmaschinen wäre dies nicht gut. Ich plane wenn das ganze ja nur für einen Websitepool von einer Größe von ca. 200-300 Sites. Ich denke hier wäre das ganze noch überschaubar. Es geht ja nicht um eine Rangordnung. |
| | |
| | |
| Erfahrener Benutzer | Orientier dich doch an der dMOZ und biete den Hosting-Kunden ( im Falle von dMOZ den Editoren ) die Möglichkeit, die ganze Seite zu indizieren, bestimmte Teilbereiche vom Index zu trennen und/oder nur Teilbereiche eine Page indizieren zu lassen. Welche Technologie du dabei verwendest ( HTML-Meta-Tags, eine eigene .htHostDir, eine Evaluierung der robots.txt oder ein Administratives Panel zum ein- und auschecken von Directory-Funktionalitäten ), liegt in dem Fall dann bei deinen Fähigkeiten. Schlussendlich würde diese Index-Bibliothek zum Teil-Produkt eures Hostingangebotes das auch jeden eurer Kunden ansprechen kann, wenn man ihm genügend Möglichkeiten lässt. Außerdem hat die Idee ansich schon genügend Potential um sie weiter auszubauen, ihr könntet euren Kunden beispielsweise über so einen Index auch die "Sichtweise von Suchmaschinen" der jeweiligen Webseite aufzeigen, sodas z.b. mehr schlecht als recht entwickelte Seiten auf eurer Hostingplattform direkt beim zusammenklicken der Index-Preferenzen Indexierungshemmenden Quellcode Identifizieren können. Automatische Validitätsprüfung wäre eine zweite Option. Auch "Big Daddy" ( Google ) könntet ihr beim vorbereiten der Index-Einträge fragen wo da überhaupt aufgrund der meta-keywords die Seite bei Suchanfragen auftaucht ( Google Search API for the win ). Was schlussendlich auch Search Engine Optimization im kleinen Stil bedeuten würde.
__________________ Geändert von tr0y (25.10.2011 um 00:47 Uhr). Grund: Ergänzung angefügt |
| | |
|
| Themen-Optionen | |
| Thema bewerten | |
|
|
Ähnliche Themen | ||||
| Thema | Autor | Forum | Antworten | Letzter Beitrag |
| [Erledigt] Framework Kernel Konzept | Geryon | Software-Design | 36 | 06.10.2010 22:23 |
| [Erledigt] Erstelle günstig Websites (Privat) | KerS | Freizeit | 8 | 24.09.2010 11:35 |
| Konzept einer Datenbankabstraktion | Dark Guardian | Software-Design | 29 | 30.01.2010 18:13 |
| [Erledigt] Koordinatensystem Ordnen | roest | Datenbanken | 3 | 22.01.2010 16:45 |
| [Erledigt] Konzept für einen PHP Web Crawler | Dark Guardian | Software-Design | 10 | 23.11.2009 16:31 |
| APC bei mehreren Websites | Elliot | PHP-Fortgeschrittene | 5 | 02.02.2008 01:10 |
| ordnen eines arrays | PHP Tipps 2005-2 | 4 | 28.09.2005 07:13 | |
| datum nach tagen ordnen | PHP Tipps 2005 | 3 | 06.05.2005 08:49 | |
| Besucher kamen über folgende Suchanfragen bei Google auf diese Seite |
| ordnen von websites |