Ankündigung

Einklappen
Keine Ankündigung bisher.

sehr große sitemap Generierung, strukturieren?

Einklappen

Neue Werbung 2019

Einklappen
X
  • Filter
  • Zeit
  • Anzeigen
Alles löschen
neue Beiträge

  • sehr große sitemap Generierung, strukturieren?

    Hallo Forum,

    ich möchte mich an meinem Sitemap-generator machen habe mich in das Thema grundlegend eingelesen und hätte eine Frage...
    Da man dort ja jede dynamische Seite erfassen muss, wenn man möchte das diese über Suchmaschinen gefunden werden sollen, stellt sich mir die Frage ob es einen Unterschied macht wie man die Aufteilung der Sitemaps umsetzt?

    Also ob es besser ist man erstellt eine Index-Datei die alle anderen sitemaps enthält oder ob man diese einfach mit 49.999 Einträgen füllt und als letztes die nächste Sitemap-Datei angibt (oder ob es halt egal ist)?

    Beispiel:
    Code:
    <?xml version="1.0" encoding="UTF-8"?>
    <sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
       <sitemap>
          <loc>http://www.example.com/sitemap_1.xml.gz</loc>
          <lastmod>2004-10-01T18:23:17+00:00</lastmod>
       </sitemap>
       <!-- weitere 49.998 mal (wenn soviele vorhadnen sind) -->
       <sitemap>
          <loc>http://www.example.com/sitemap_50000.xml.gz</loc>
          <lastmod>2005-01-01</lastmod>
       </sitemap>
    </sitemapindex>
    
    // oder
    
    <?xml version="1.0" encoding="UTF-8"?>
    <sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
       <url>
          <loc>http://www.example.com/catalog?item=1</loc>
          <lastmod>2004-12-23T18:00:15+00:00</lastmod>
          <priority>0.3</priority>
       </url>
       <!-- weitere 49.998 mal (wenn soviele vorhadnen sind) -->
       <sitemap>
          <loc>http://www.example.com/sitemap_2.xml.gz</loc>
          <lastmod>2005-01-01</lastmod>
       </sitemap>
    </sitemapindex>
    letztere Variante wäre mir eigentlich lieber, denn sollte die Situation auftreten das selbst 50k Sitemaps nicht ausreichen dann wird es kompliziert und mit der zweiten Variante wäre es einfach fortlaufend und einfacher umzusetzen.

    So würde ich jetzt vorgehen eine Index-Datei mit den statischen Unterseiten und am Ende die jeweils erste index-datei für Bereiche mit dynamischen Seiten:
    Code:
    // Beispiel ohne Syntax
    http://www.example.com/startseite.html
    http://www.example.com/anmelden.html
    http://www.example.com/und_immer_so_weiter.html
    
    http://www.example.com/forum_sitemap.xml
    http://www.example.com/news_sitemap.xml
    http://www.example.com/article_sitemap.xml
    Das Limit von 50k sollte im index bei weitem nicht erreicht werden, die forum, new und atricle sitemaps wären dann nach der letzten Variante strukturiert und binden als letztes stets die nächste xml ihres Bereiches ein (forum_2.xxml, forum_3xml u.s.w.).


    MfG: Paykoman

  • #2
    Wer braucht überhaupt noch Sitemaps?

    Kommentar


    • #3
      Naja weshalb nicht?

      Insbesondere für Unterseiten die nicht ganz barrierefrei erreicht werden... Z.B. habe ich eine "region.html"-Seite die sich nur nach diversen Angaben (& Cookies) zu z.B. "region_wuppertal.html" wird (auf ihr gelinkt wird), denke nich das crawler dies erfassen. Um genau zusein gibtes nur ein link nach region.html nach der Standorterfassung und einem on.change-Event ändert JS die URL und öffnet es als iframe in einem Fenstersystem...

      Gleich gilt für Artikel, da immer 50 im Hintergrund geladen werden und am Ende derSeite ein "zeige mir mehr.."- Button ist, wird es auch hier für Suchmaschienen keine vollständige Liste zum indexieren geben.

      Also Sitmaps...

      Kommentar


      • #4
        Dann statte das alles doch mit richtigen Links aus, sehe jetzt nichts was nicht auch ohne JS laufen sollte.
        [I]You know, my wife sometimes looks at me strangely. „Duncan“, she says, „there's more to life than Solaris“. Frankly, it's like she speaks another language. I mean, the words make sense individually, but put them together and it's complete nonsense.[/I]

        Kommentar


        • #5
          Nun ja, ich achte i.d.R. schon darauf das ich im HTMl <a>-Elemente setzte. Aber das ändert ja nichts an den Artikel & Region Gegebenheit.
          Bei den Artikeln sieht man eben nur 50, denke nicht das crawler den Mehr-Button nutzen bis keine Artikel mehr kommen?

          Und den region-{stadtname}.html kann ich nur generieren wenn der user sein Standort mittels PLZ oder Stadtname angegeben hat (eine automatische Erkennung gibt es noch nicht und beim crawler-bot auch unnütz).

          In beidenfällen kann ich also kein html-Dokument generieren das alle Artikel für den Crawler auflistet, ich mein wenn ich das für crawler optimieren kann würde ich ggf. auch auf die sitemap verzichten.

          Natürlich könnte ich im Footer Links einbauen zu Seiten die eine globale Auflistung generieren aber das wäre bissl unschön für die User, wenn ich solch ein Link als hidden-element für crawler mache, nutzen die den auch?
          Da ich in diesen Dokumenten die Einträge nicht nach Sprachen/Land filtern darf, wären es natürlich sehr lange Listen die geladen werden müssten

          Kommentar


          • #6
            Du tust ja so als wären Crawler komplett unfähig. Eine Pagination (wenn nicht komplett pfuschig ausgeführt) stellt für einen Crawler überhaupt kein Problem dar.

            Kommentar


            • #7
              hidden-element für crawler mache
              Damit fliegst du gleich aus den Index, da es gegen die Richtlinien verstösst.

              Kommentar


              • #8
                Zitat von protestix Beitrag anzeigen
                Damit fliegst du gleich aus den Index, da es gegen die Richtlinien verstösst.
                Echt? Weil ein a-Tag nicht zusehen ist? Wäre aber echt blöde, habe in einem Bereich oben ein Menü das verschachtelte ul`s ausblendet und erst beim anklicken der überliegenden li sichtbar wird (bzw. nur die neue ul sichtbar ist), somit müsste ich da ja alle a-Tags mit rel="nofollow" versehen und damit wäre das crawlen wieder fürn Ar***...

                Wie sieht es denn aus wenn ich ne sitemap für die statischen Seiten erstelle, würden die dynamischen immer noch erfasst werden oder dann nur noch das was in der sitemap ist?

                Kommentar


                • #9
                  Wenn was per Link/URL erreichbar ist, wird das auch gecrawlt.
                  [I]You know, my wife sometimes looks at me strangely. „Duncan“, she says, „there's more to life than Solaris“. Frankly, it's like she speaks another language. I mean, the words make sense individually, but put them together and it's complete nonsense.[/I]

                  Kommentar


                  • #10
                    Zitat von chorn Beitrag anzeigen
                    Wenn was per Link/URL erreichbar ist, wird das auch gecrawlt.
                    Gut ok, aber die Frage wegen den nicht sichtbaren a-Tags bleibt noch, ob man da tatsächlich so schnell Minuspunkte sammelt oder gar rausfliegt aus der Indexierung?

                    Kommentar


                    • #11
                      Zitat von Paykoman Beitrag anzeigen
                      Gut ok, aber die Frage wegen den nicht sichtbaren a-Tags bleibt noch, ob man da tatsächlich so schnell Minuspunkte sammelt oder gar rausfliegt aus der Indexierung?
                      Suchmaschinen versuchen möglichst alles abzugreifen, was ein Mensch auch sehen kann. Wenn ein Mensch die Navigation sehen kann, dann ein (guter) Crawler auch. Von daher: Optimiere deine Seiten für Menschen, dann ist sie auch automatisch für Crawler optimiert. Dinge, die Menschen nicht oder nur schwer sehen können, werden von Suchmaschinen abgewertet.

                      Du solltest übrigens auch immer mal deine Seite mit deaktiviertem JavaScript ausprobieren. Denn auch wenn Crawler heutzutage großteils JavaScript beherrschen, sollte auch immer eine JavaScript-lose Basisversion vorhanden sein, die übrigens auch von Menschen vernünftig bedienbar sein sollte. Denn wie gesagt, was für Menschen schlecht ist bringt Abwertungen beim Ranking.

                      Kommentar


                      • #12
                        Versteck die Links halt einfach nicht. Wo ist denn da der Sinn, wenn der Benutzer über die Suchmaschine da eh ran kommt? Das klingt alles so als willst du Ranking abgreifen ohne dem User einen Mehrwert zu bieten.
                        [I]You know, my wife sometimes looks at me strangely. „Duncan“, she says, „there's more to life than Solaris“. Frankly, it's like she speaks another language. I mean, the words make sense individually, but put them together and it's complete nonsense.[/I]

                        Kommentar


                        • #13
                          Zitat von chorn Beitrag anzeigen
                          Versteck die Links halt einfach nicht. Wo ist denn da der Sinn, wenn der Benutzer über die Suchmaschine da eh ran kommt? Das klingt alles so als willst du Ranking abgreifen ohne dem User einen Mehrwert zu bieten.
                          Nein, es geht lediglich um ein Navigations-menü das verschiedene Ebenen hat (Unterkategorien) und hier habe ich es recht mühselig so umgesetzt das der Nutzer es ganz bequem innerhalb einer kleinen Box durchforsten kann.
                          Dies Box öffnet sich wenn man auf "Kategorien durchsuchen" klickt (eben auch mobil sehr einfach & übersichtlich).

                          Aber nun gut, einige Infos waren sehr hilfreich, da werde ich wohl noch mal par Optimierungen machen müssen.
                          Danke für die Hilfe.

                          Kommentar


                          • #14
                            Zitat von Paykoman Beitrag anzeigen

                            Nein, es geht lediglich um ein Navigations-menü das verschiedene Ebenen hat (Unterkategorien) und hier habe ich es recht mühselig so umgesetzt das der Nutzer es ganz bequem innerhalb einer kleinen Box durchforsten kann.
                            Dies Box öffnet sich wenn man auf "Kategorien durchsuchen" klickt (eben auch mobil sehr einfach & übersichtlich).

                            Aber nun gut, einige Infos waren sehr hilfreich, da werde ich wohl noch mal par Optimierungen machen müssen.
                            Danke für die Hilfe.
                            Erstelle Sitemaps per Cronjob nach dem Schema "sitemap-YYYY-MM(-DD).xml, welche von einer Haupt-Sitemap verlinkt werden.
                            So solltest du an kein Limit stoßen und hast es chronologisch geordnet. So machen es auch große Plattformen.

                            Keine Ahnung warum Sitemaps gleich auf solchen Widerstand stoßen. Muss nicht sein - aber wer kann, der kann.

                            Kommentar

                            Lädt...
                            X