Ankündigung

Einklappen
Keine Ankündigung bisher.

Konzept: Websites thematisch ordnen

Einklappen

Neue Werbung 2019

Einklappen
X
  • Filter
  • Zeit
  • Anzeigen
Alles löschen
neue Beiträge

  • Konzept: Websites thematisch ordnen

    Hallo!
    ich hoffe, dass ich hier im richten Unterforum gelandet bin
    Ich habe mit einem Kumpel ein Freewebhosting laufen, das auch relativ erfolgreich und ich hab viel selbst geschrieben dafür (Setze mal keinen Link, damit es nicht heißt, ich möchte nur Werbung machen )
    Jetzt wollen wir unseren Kunden die Möglichkeit geben innerhalb der Kundenwebsites zu suchen (also eine Art Suchmaschine intern).
    Dafür wollen wir via PHP automatisiert die Websites in Themengebiete einteilen und taggen lassen.
    Hier überlege ich gerade nach einem Konzept.
    Meine Idee ist, dass ich nach dem bekannten Konzept natürlich Links crawle und verfolge, solange diese intern sind. Jede Website würde ich nach Stichworten durchsuchen, die ich vorher Themengebieten zuordne.
    zB PHP -> Entwicklung, Nudeln -> Essen/Rezepte, und so weiter.
    Dann würde ich schauen, in welchem Verhältnis die Wörter stehen und die Kategorie, wo die meisten Wörter sind im Verhältnis zur Gesamtanzahl, die würde es dann werden.
    Habt ihr da eventuell andere Ansätze?

    Gruß.
    solar22

  • #2
    ich hoffe, dass ich hier im richten Unterforum gelandet bin
    Nein, bist Du nicht.

    Inserate, Konzepte und Meinungsumfragen

    [MOD: verschoben]

    Kommentar


    • #3
      Zu dem von dir verlinkten Thema http://www.php.de/php-einsteiger/675...sumfragen.html
      Ich suche niemanden, der mir das macht, ich möchte nur wissen, ob jemand evtl. einen anderen Ansatz hat spontan oder nicht ^^ Eine Art spontanes Brainstorming, bevor ich heute Abend mich an meinen Ansatz setze

      Gruß.
      solar22

      Kommentar


      • #4
        Deswegen hab ichs auch nach OT verschoben und nicht getrasht. Grundlegend gilt trotzdem, dass dies keine Frage zur Entwicklung ist, sondern eine Konzeptdiskussion, die das fachliche Niveau für den Softwaredesign-Thread nicht erreicht. Denn ganz ehrlich - so ausgefeilt ist ja Dein dargelegter Lösungsansatz nicht.

        Kommentar


        • #5
          Das Problem liegt hier:

          Jede Website würde ich nach Stichworten durchsuchen, die ich vorher Themengebieten zuordne.
          Es gibt eine ganze Menge Dinge.

          Kannst du den Nutzern nicht ein Interface zur Verfügung stellen, in dem sie ihre Seite selbst kategorisieren können? Das wird allemal exakter.

          Kommentar


          • #6
            Die Idee dahinter ist, den Nutzern bereits 1-2 Kategorievorschlägen zu geben.
            Ich mein, wenn eh einmal die Seite gecrawlt wird, kann man diesen Vorgang ja zur Contenterkennung gleich nutzen.

            @nikosch: Ja, stimmt Ausgefeilt ist es nicht, aber soll es noch werden

            Kommentar


            • #7
              Das klingt so einfach bei dir.

              Hast du denn eine Taxonomie deutscher Begriffe bereits vorliegen, die du nutzen kannst? (Ich weiß ehrlich gesagt nicht, ob man sowas kostenlos im Web findet.)

              Ich finde das Thema durchaus spannend. Aber ich befürchte, dass das sehr viel Arbeit werden kann für einen eher zweifelhaften oder zumindest geringen Nutzen.

              Kommentar


              • #8
                Es geht mir ersteinmal nur um die Erarbeitung der PHP Funktion als solcher anhand ein paar Beispiellisten.
                Wenn das ganze wirklich so funktioniert, wie ich mir das vorstelle könnte man durchaus ein paar Listen erstellen. Ich denke da wird sich sicher was finden lassen, auch wenn man evtl ein wenig dafür zahlen muss.
                Der Nutzen: nun, man könnte damit auch Websites ausfindig machen, wie Themen behandeln, die man nicht auf dem eigenen Server haben möchte und dem Administrator eine Mail zukommen lassen mit einer Warnung zur Prüfung des Inhaltes.

                Kommentar


                • #9
                  Warum wollt ihr denn die Suche in Themengebiete einteilen?
                  Ich finde es immer nervig, wenn ich vorher ein Themengebiet auswählen muss, in dem gesucht wird. Und wenn es die Möglichkeit gibt, auch ohne Themenvorgabe zu suchen, dann mache ich das.

                  Ich habe vor Kurzem selber mal mit sowas herumexperimentiert, also eine kleine Anfängersuche gebastelt, die auch funktioniert hat.

                  Dabei wurde eine Website komplett eingelesen, alle Wörter einer zuvor definierten Blacklist herausgefiltert, und die restlichen Wörter mit Angabe ihrer URL in eine DB geschrieben, also immer Seitenweise.
                  Hinzu kamen dann auch noch die vorher ausgelesenen Keywords.

                  Wenn ich dann nach einem Wort gesucht habe, wurden mir die passenden URL's ausgespuckt.
                  Alles stark verbesserungsfähig, klar.
                  Aber für den Anfang, um gewisse Prinzipien zu verstehen und überhaupt mal einzusteigen, war das schon ganz interessant.

                  Zum Beispiel lernt man dann, dass man nicht einfach so mal schnell eine komplette Seite mit allen Unterseiten crawlen kann, weil dann nämlich, je nach Anzahl der Unterseiten, plötzlich ein Server-Error aufploppt und die Seite nicht mehr erreichbar ist...

                  Kommentar


                  • #10
                    Der Nutzen: nun, man könnte damit auch Websites ausfindig machen, wie Themen behandeln, die man nicht auf dem eigenen Server haben möchte
                    Na hoffentlich hältst DU Dich dann auch an die robots.txt…

                    Kommentar


                    • #11
                      @mentalman: Die Suche als solche soll nicht in Themengebiete gegliedert werden, aber die Websites wollen wir in eine Art Katalog sortieren. (Natürlich nur, wenn der Webmaster das will).
                      Ersteinmal wird es ein Übungszweck haben, ob es so online gehen wird, muss ich noch sehen.

                      @nikosch: Selbstverständlich. Was ich von anderen Crawlern erwarte, beachte ich auch selbst.
                      Im Endeffekt folge ich ja auch nur Links, die auf der Website stehen und indiziere nur den HTML Inhalt, keine sonst. Dateien.

                      Kommentar


                      • #12
                        Zitat von mentalman
                        Ich habe vor Kurzem selber mal mit sowas herumexperimentiert, also eine kleine Anfängersuche gebastelt, die auch funktioniert hat.
                        Vom Prinzip her machen das auch die „Profis“ nicht groß anders. Sowas verschlingt eben derbe Ressourcen.

                        Es ist wichtig, solche Crawler „skalierbar“ zu schreiben, womit ich erst mal nur meine, dass eine 30 MB HTML-Datei sie nicht abstürzen lassen sollte, weil im Code explode(' ', file_get_contents($url)) steht oder so und das Memory Limit nicht passt.

                        alle Wörter einer zuvor definierten Blacklist
                        Falls jemand den Begriff nicht kennt: http://de.wikipedia.org/wiki/Stoppwort

                        Zitat von solar22
                        Dann würde ich schauen, in welchem Verhältnis die Wörter stehen und die Kategorie, wo die meisten Wörter sind im Verhältnis zur Gesamtanzahl, die würde es dann werden.
                        Die konkrete Umsetzung ist wohl eine Wissenschaft für sich. Da geht's dann in Richtung „Meinungsumfrage“.

                        Ich habe selbst mal an einem Algorithmus geschrieben, der die „Ähnlichkeit“ von Texten berechnet, um einen „Dies könnte Sie auch interessieren“-Bereich zu füllen. Sagen wir mal so: Bei hinreichend langen Texten, die sich thematisch hinreichend ähneln und unterscheiden, waren die Resultate – na ja – hinreichend okay. Das ist aber kein Vergleich zu einer manuellen Kategorisierung über beispielsweise Tags, da schon auffällt, dass ein Algorithmus die Auswahl getroffen hat. Außerdem ist die Berechnung nicht gerade günstig gewesen, obwohl ich jeden Trick im Buch angewendet habe (außer dem, nicht PHP zu verwenden ). Aber gut, sowas kann man cachen.

                        Ohne Anteilsverhältnisse der Wörter wird es wohl nicht gehen, aber das Problem von Verhältnissen ist dieser SEO-Teufelskreis: Suchmaschine findet heraus, dass der Hauptbegriff optimalerweise jedes 25. Wort auf der Seite sein sollte. Alle Leute füllen ihre thematisch nicht maximal relevanten Seiten so. Die Suchmaschine muss ihren Wertungsalgorithmus anpassen, um diese Seiten abzuwerten. Usw.

                        Das führt zu diesem schrecklichen Zustand, Seiten für Suchmaschinen zu schreiben und nicht für Nutzer, obwohl die Suchmaschinen alles daran setzen, genau das zu bekämpfen.

                        Natürlich wird das für deinen Crawler niemand machen, weil es keinen Vorteil bringt, aber was ich sagen will: Diese auf relativen Anteilen basierende Wertung ist mitunter schwierig.

                        Kommentar


                        • #13
                          @nikosch: Selbstverständlich. Was ich von anderen Crawlern erwarte, beachte ich auch selbst.
                          Im Endeffekt folge ich ja auch nur Links, die auf der Website stehen und indiziere nur den HTML Inhalt, keine sonst. Dateien.
                          Machen alle andere SM auch. Ich frage nur deshalb, weil vielleicht gerade Leute mit fragwürdigen Inhalten vielleicht auch eine entspr. robots.txt verfassen.

                          Kommentar


                          • #14
                            Das stimmt. Dann will ich auch nicht gegen die robots.txt verstoßen.
                            Aber es wäre ein evtl. Anwendungsgebiet - und sei es nur in einem Intranet.

                            @mermshaus: Ja, für große Suchmaschinen wäre dies nicht gut. Ich plane wenn das ganze ja nur für einen Websitepool von einer Größe von ca. 200-300 Sites. Ich denke hier wäre das ganze noch überschaubar. Es geht ja nicht um eine Rangordnung.

                            Kommentar


                            • #15
                              Orientier dich doch an der dMOZ und biete den Hosting-Kunden ( im Falle von dMOZ den Editoren ) die Möglichkeit, die ganze Seite zu indizieren, bestimmte Teilbereiche vom Index zu trennen und/oder nur Teilbereiche eine Page indizieren zu lassen. Welche Technologie du dabei verwendest ( HTML-Meta-Tags, eine eigene .htHostDir, eine Evaluierung der robots.txt oder ein Administratives Panel zum ein- und auschecken von Directory-Funktionalitäten ), liegt in dem Fall dann bei deinen Fähigkeiten.

                              Schlussendlich würde diese Index-Bibliothek zum Teil-Produkt eures Hostingangebotes das auch jeden eurer Kunden ansprechen kann, wenn man ihm genügend Möglichkeiten lässt. Außerdem hat die Idee ansich schon genügend Potential um sie weiter auszubauen, ihr könntet euren Kunden beispielsweise über so einen Index auch die "Sichtweise von Suchmaschinen" der jeweiligen Webseite aufzeigen, sodas z.b. mehr schlecht als recht entwickelte Seiten auf eurer Hostingplattform direkt beim zusammenklicken der Index-Preferenzen Indexierungshemmenden Quellcode Identifizieren können. Automatische Validitätsprüfung wäre eine zweite Option. Auch "Big Daddy" ( Google ) könntet ihr beim vorbereiten der Index-Einträge fragen wo da überhaupt aufgrund der meta-keywords die Seite bei Suchanfragen auftaucht ( Google Search API for the win ). Was schlussendlich auch Search Engine Optimization im kleinen Stil bedeuten würde.

                              Kommentar

                              Lädt...
                              X