php.de

Zurück   php.de > php.de Intern > Off-Topic Diskussionen

Off-Topic Diskussionen Mach mal Pause vom Programmieren!

Antwort
 
LinkBack Themen-Optionen Thema bewerten
Alt 24.10.2011, 18:44  
Neuer Benutzer
 
Registriert seit: 31.10.2009
Beiträge: 13
PHP-Kenntnisse:
Fortgeschritten
solar22 befindet sich auf einem aufstrebenden Ast
Standard

@mentalman: Die Suche als solche soll nicht in Themengebiete gegliedert werden, aber die Websites wollen wir in eine Art Katalog sortieren. (Natürlich nur, wenn der Webmaster das will).
Ersteinmal wird es ein Übungszweck haben, ob es so online gehen wird, muss ich noch sehen.

@nikosch: Selbstverständlich. Was ich von anderen Crawlern erwarte, beachte ich auch selbst.
Im Endeffekt folge ich ja auch nur Links, die auf der Website stehen und indiziere nur den HTML Inhalt, keine sonst. Dateien.
solar22 ist offline   Mit Zitat antworten
Sponsor Mitteilung
PHP Code Flüsterer

Registriert seit: 21.08.2005
Beiträge: 4682
PHP-Kenntnisse:
Fortgeschritten

Alt 24.10.2011, 18:58  
Erfahrener Benutzer
 
Benutzerbild von mermshaus
 
Registriert seit: 14.06.2009
Beiträge: 1.729
PHP-Kenntnisse:
Fortgeschritten
mermshaus kann auf vieles stolz seinmermshaus kann auf vieles stolz seinmermshaus kann auf vieles stolz seinmermshaus kann auf vieles stolz seinmermshaus kann auf vieles stolz seinmermshaus kann auf vieles stolz seinmermshaus kann auf vieles stolz seinmermshaus kann auf vieles stolz seinmermshaus kann auf vieles stolz sein
Standard

Zitat:
Zitat von mentalman
Ich habe vor Kurzem selber mal mit sowas herumexperimentiert, also eine kleine Anfängersuche gebastelt, die auch funktioniert hat.
Vom Prinzip her machen das auch die „Profis“ nicht groß anders. Sowas verschlingt eben derbe Ressourcen.

Es ist wichtig, solche Crawler „skalierbar“ zu schreiben, womit ich erst mal nur meine, dass eine 30 MB HTML-Datei sie nicht abstürzen lassen sollte, weil im Code explode(' ', file_get_contents($url)) steht oder so und das Memory Limit nicht passt.

Zitat:
alle Wörter einer zuvor definierten Blacklist
Falls jemand den Begriff nicht kennt: http://de.wikipedia.org/wiki/Stoppwort

Zitat:
Zitat von solar22
Dann würde ich schauen, in welchem Verhältnis die Wörter stehen und die Kategorie, wo die meisten Wörter sind im Verhältnis zur Gesamtanzahl, die würde es dann werden.
Die konkrete Umsetzung ist wohl eine Wissenschaft für sich. Da geht's dann in Richtung „Meinungsumfrage“.

Ich habe selbst mal an einem Algorithmus geschrieben, der die „Ähnlichkeit“ von Texten berechnet, um einen „Dies könnte Sie auch interessieren“-Bereich zu füllen. Sagen wir mal so: Bei hinreichend langen Texten, die sich thematisch hinreichend ähneln und unterscheiden, waren die Resultate – na ja – hinreichend okay. Das ist aber kein Vergleich zu einer manuellen Kategorisierung über beispielsweise Tags, da schon auffällt, dass ein Algorithmus die Auswahl getroffen hat. Außerdem ist die Berechnung nicht gerade günstig gewesen, obwohl ich jeden Trick im Buch angewendet habe (außer dem, nicht PHP zu verwenden ). Aber gut, sowas kann man cachen.

Ohne Anteilsverhältnisse der Wörter wird es wohl nicht gehen, aber das Problem von Verhältnissen ist dieser SEO-Teufelskreis: Suchmaschine findet heraus, dass der Hauptbegriff optimalerweise jedes 25. Wort auf der Seite sein sollte. Alle Leute füllen ihre thematisch nicht maximal relevanten Seiten so. Die Suchmaschine muss ihren Wertungsalgorithmus anpassen, um diese Seiten abzuwerten. Usw.

Das führt zu diesem schrecklichen Zustand, Seiten für Suchmaschinen zu schreiben und nicht für Nutzer, obwohl die Suchmaschinen alles daran setzen, genau das zu bekämpfen.

Natürlich wird das für deinen Crawler niemand machen, weil es keinen Vorteil bringt, aber was ich sagen will: Diese auf relativen Anteilen basierende Wertung ist mitunter schwierig.
__________________
Blog | Buch | Kaloa
mermshaus ist gerade online   Mit Zitat antworten
Alt 24.10.2011, 19:15  
moderatives Dielektrikum
 
Benutzerbild von nikosch
 
Registriert seit: 21.05.2008
Beiträge: 35.987
PHP-Kenntnisse:
Fortgeschritten
nikosch hat eine strahlende Zukunftnikosch hat eine strahlende Zukunftnikosch hat eine strahlende Zukunftnikosch hat eine strahlende Zukunftnikosch hat eine strahlende Zukunftnikosch hat eine strahlende Zukunftnikosch hat eine strahlende Zukunftnikosch hat eine strahlende Zukunftnikosch hat eine strahlende Zukunftnikosch hat eine strahlende Zukunftnikosch hat eine strahlende Zukunft
Standard

Zitat:
@nikosch: Selbstverständlich. Was ich von anderen Crawlern erwarte, beachte ich auch selbst.
Im Endeffekt folge ich ja auch nur Links, die auf der Website stehen und indiziere nur den HTML Inhalt, keine sonst. Dateien.
Machen alle andere SM auch. Ich frage nur deshalb, weil vielleicht gerade Leute mit fragwürdigen Inhalten vielleicht auch eine entspr. robots.txt verfassen.
__________________
--
One pixel is still too big. Please make it smaller. ASAP.

Initiative Mittelstand.
Die wichtigste Gestaltungsregel im Screendesign ist Pi mal Daumen des Arbeitgebers.
--
nikosch ist offline   Mit Zitat antworten
Alt 24.10.2011, 21:13  
Neuer Benutzer
 
Registriert seit: 31.10.2009
Beiträge: 13
PHP-Kenntnisse:
Fortgeschritten
solar22 befindet sich auf einem aufstrebenden Ast
Standard

Das stimmt. Dann will ich auch nicht gegen die robots.txt verstoßen.
Aber es wäre ein evtl. Anwendungsgebiet - und sei es nur in einem Intranet.

@mermshaus: Ja, für große Suchmaschinen wäre dies nicht gut. Ich plane wenn das ganze ja nur für einen Websitepool von einer Größe von ca. 200-300 Sites. Ich denke hier wäre das ganze noch überschaubar. Es geht ja nicht um eine Rangordnung.
solar22 ist offline   Mit Zitat antworten
Alt 25.10.2011, 00:41  
Erfahrener Benutzer
 
Benutzerbild von tr0y
 
Registriert seit: 26.07.2010
Beiträge: 4.874
PHP-Kenntnisse:
Fortgeschritten
tr0y ist ein wunderbarer Anblicktr0y ist ein wunderbarer Anblicktr0y ist ein wunderbarer Anblicktr0y ist ein wunderbarer Anblicktr0y ist ein wunderbarer Anblicktr0y ist ein wunderbarer Anblicktr0y ist ein wunderbarer Anblicktr0y ist ein wunderbarer Anblick
tr0y eine Nachricht über MSN schicken
Standard

Orientier dich doch an der dMOZ und biete den Hosting-Kunden ( im Falle von dMOZ den Editoren ) die Möglichkeit, die ganze Seite zu indizieren, bestimmte Teilbereiche vom Index zu trennen und/oder nur Teilbereiche eine Page indizieren zu lassen. Welche Technologie du dabei verwendest ( HTML-Meta-Tags, eine eigene .htHostDir, eine Evaluierung der robots.txt oder ein Administratives Panel zum ein- und auschecken von Directory-Funktionalitäten ), liegt in dem Fall dann bei deinen Fähigkeiten.

Schlussendlich würde diese Index-Bibliothek zum Teil-Produkt eures Hostingangebotes das auch jeden eurer Kunden ansprechen kann, wenn man ihm genügend Möglichkeiten lässt. Außerdem hat die Idee ansich schon genügend Potential um sie weiter auszubauen, ihr könntet euren Kunden beispielsweise über so einen Index auch die "Sichtweise von Suchmaschinen" der jeweiligen Webseite aufzeigen, sodas z.b. mehr schlecht als recht entwickelte Seiten auf eurer Hostingplattform direkt beim zusammenklicken der Index-Preferenzen Indexierungshemmenden Quellcode Identifizieren können. Automatische Validitätsprüfung wäre eine zweite Option. Auch "Big Daddy" ( Google ) könntet ihr beim vorbereiten der Index-Einträge fragen wo da überhaupt aufgrund der meta-keywords die Seite bei Suchanfragen auftaucht ( Google Search API for the win ). Was schlussendlich auch Search Engine Optimization im kleinen Stil bedeuten würde.
__________________
Lasse mir ohne Anwendung von Gewalt Dinge schenken, Amazon weiß darüber bald mehr.

Geändert von tr0y (25.10.2011 um 00:47 Uhr). Grund: Ergänzung angefügt
tr0y ist offline   Mit Zitat antworten
Antwort


Themen-Optionen
Thema bewerten
Thema bewerten:

Forumregeln
Es ist dir nicht erlaubt, neue Themen zu verfassen.
Es ist dir nicht erlaubt, auf Beiträge zu antworten.
Es ist dir nicht erlaubt, Anhänge hochzuladen.
Es ist dir nicht erlaubt, deine Beiträge zu bearbeiten.

BB-Code ist an.
Smileys sind an.
[IMG] Code ist an.
HTML-Code ist aus.
Trackbacks are an
Pingbacks are an
Refbacks are an
Gehe zu

Ähnliche Themen
Thema Autor Forum Antworten Letzter Beitrag
[Erledigt] Framework Kernel Konzept Geryon Software-Design 36 06.10.2010 22:23
[Erledigt] Erstelle günstig Websites (Privat) KerS Freizeit 8 24.09.2010 11:35
Konzept einer Datenbankabstraktion Dark Guardian Software-Design 29 30.01.2010 18:13
[Erledigt] Koordinatensystem Ordnen roest Datenbanken 3 22.01.2010 16:45
[Erledigt] Konzept für einen PHP Web Crawler Dark Guardian Software-Design 10 23.11.2009 16:31
APC bei mehreren Websites Elliot PHP-Fortgeschrittene 5 02.02.2008 01:10
ordnen eines arrays PHP Tipps 2005-2 4 28.09.2005 07:13
datum nach tagen ordnen PHP Tipps 2005 3 06.05.2005 08:49

Besucher kamen über folgende Suchanfragen bei Google auf diese Seite
ordnen von websites

Alle Zeitangaben in WEZ +2. Es ist jetzt 17:26 Uhr.




Powered by vBulletin® Version 3.7.2 (Deutsch)
Copyright ©2000 - 2012, Jelsoft Enterprises Ltd.
Search Engine Optimization by vBSEO 3.2.0
Aprilia-Forum, Aquaristik-Forum, Liebeskummer-Forum, Zierfisch-Forum, Geizkragen-Forum