• bolzen10

    (@bolzen10)


    Hallo an Alle,

    Könnte mir bitte einer erläutern, was die Befehle in meiner robot.txt Datei bedeuten?

    Die Befehle bedeuten doch was gecrawelt werden darf und was nicht?

    Wenn ja, welche Seiten sind von dem Craweln ausgeschlossen?

    Lg.

    User-agent: *
    Disallow: /widerruf
    Disallow: /widerrufsbelehrung
    Disallow: /agb
    Disallow: /datenschutz
    Disallow: /impressum
    Disallow: /meine Seite-impressum
    Disallow: /meine Seite-brillenreiniger-datenschutz
    Disallow: /wp-content/plugins/
    Disallow: /readme.html
    Disallow: /refer/
    Disallow: /cgi-bin/
    Disallow: /wp-admin/
    Disallow: /trackback/
    Disallow: /feed/
    Disallow: /comments/
    Disallow: */trackback/
    Disallow: */feed/
    Disallow: */comments/
    Disallow: /wp-content/uploads/wc-logs/
    Disallow: /wp-content/uploads/woocommerce_transient_files/
    Disallow: /wp-content/uploads/woocommerce_uploads/
    Disallow: /wp-admin/
    Allow: /wp-admin/admin-ajax.php START YOAST BLOCK ---------------------------

    User-agent: *
    Disallow: /?s=
    Disallow: /page/*/?s=
    Disallow: /search/
    Disallow: /wp-json/
    Disallow: /?rest_route=

    User-agent: AdsBot
    Disallow: /

    Sitemap: https://meine Seite.de/sitemap_index.xml --------------------------- END YOAST BLOCK

    Die Seite, für die ich Hilfe brauche: [Anmelden, um den Link zu sehen]

Ansicht von 3 Antworten – 1 bis 3 (von insgesamt 3)
  • Hallo,
    das ist an sich eher nur bedingt ein Thema für dieses Forum. Du findest bei einer Recherche im Netzt aber viele Erläuterungen zu dem Thema, s. B. hier.

    Am besten wendest du dich mit der Frage z. B. an deinen Hoster.

    Viele Grüße
    Hans-Gerd

    Thread-Starter bolzen10

    (@bolzen10)

    Danke.

    Trotzdem ist mir klar, was man z.Bp mit diesen Befehlen blockiert?

    Benutzeragent: *

    Disallow: /?s=

    Disallow: /page/*/?s=

    Was sind das für Befehle?

    Moderator threadi

    (@threadi)

    Es gibt eine offizielle Website zu diesem Format auf der alles (auf englisch) dokumentiert ist: http://www.robotstxt.org

    Die Zeilen muss man nacheinander lesen. Der User-Agent ist dabei die Kennung eines Browsers oder Bots, die dieser bei der Anfrage an einen Server an diesen schickt um sich zu identifizieren. Ich gehe mal auf die Angabe auf deinem ersten Beitrag hier ein. Die bedeuten:

    Kein User-Agent darf auf die URL /widerruf, /widerrufsbelehrung, /agb, /datenschutz, /impressum, /meine Seite-impressum, /meine Seite-brillenreiniger-datenschutz, /wp-content/plugins/, /readme.html, /refer/, /cgi-bin/, /wp-admin/, /trackback/, /feed/, /comments/, */trackback/, */feed/, */comments/, /wp-content/uploads/wc-logs/, /wp-content/uploads/woocommerce_transient_files/, /wp-content/uploads/woocommerce_uploads/ und /wp-admin/ zugreifen. Das ist insgesamt durchaus eine sinnvolle Liste. Das Impressum und die Datenschutzseite indizieren zu lassen macht wenig Sinn. Viele Website-Betreiber wollen dadurch auch verhindern, dass ihre eigen Anschrift aus dem Impressum indiziert wird. Auch die Angaben danach (ab wp-admin) sind durchaus sinnvoll um zu verhindern, dass ungünstige Daten mit in den Index von Suchmaschinen gelangen.

    Danach gibt es eine Ausnahme von der Regel zum Verzeichnis /wp-admin/: admin-ajax.php wird dennoch erlaubt. Das ist oft das Ziel von AJAX-Requests in der öffentlichen Website und kann für Suchmaschinen interessant sein. Aus meiner Sicht macht es wenig Sinn, aber ist jeder Website selbst überlassen.

    Zudem darf kein User-Agent URLs indizieren die mit /?s=, /page/*/?s=, /search/, /wp-json/ oder /?rest_route= beginnen. Heißt für dich: Ergebnisse deiner Website-eigenen Suche würden nicht in Suchergebnissen bei Google erscheinen. Ebenso nicht die Ausgabe der REST-API (wp-json) von WordPress. Also ganz gut so.

    Dem Bot der die Kennung AdsBot beinhaltet ist zudem jegliche Indizierung deiner Website untersagt.

    Bots, die sich dafür interessieren, werden über die URL deiner SitemapXML informiert. Das ist Vorteilhaft z.B. für Google da deren Bots dadurch nicht danach suchen müssen.

    Solltest Du weitere Fragen haben, würde ich dir o.g. Dokumentation zu den Eigenschaften der robots.txt empfehlen. Wie von @hage schon geschrieben geht das Thema ziemlich an diesem Forum vorbei, weshalb ich dir auch empfehlen würde bei weiterem Interesse dich eher an die Google Search Community zu wenden, wo weit mehr Menschen anwesend sind, die sich tagtäglich mit dieser Datei beschäftigen als hier: https://support.google.com/websearch/community?hl=de

Ansicht von 3 Antworten – 1 bis 3 (von insgesamt 3)