Meine Suchfunktion rechts oben basiert ja nun seit ein paar Tagen auf Google und funktioniert so weit ganz gut. Gestern habe ich allerdings nach ein paar Sachen gesucht und mir wurden ständig die Kommentarfeeds verschiedener Artikel als Ergebnisse angezeigt („Comments on: blablabla“). Nicht gut, aber wie verhindert man so etwas?
Relativ einfach geht das mit der robots.txt. Denn entgegen der Spezifikation versteht zumindest der Googlebot auch Wildcards und so kann man recht elegant ungewolltes ausschließen. Meine robots.txt enthält denn auch folgende Einträge:
User-agent: *
Disallow: /wp-
Disallow: /blogger
Disallow: */trackback$
Disallow: */trackback/$
Allow: /wp-content/uploads
User-agent: Googlebot
Disallow: */feed$
Disallow: */feed/$
Das sorgt erstmal dafür, dass alle wp-Verzeichnisse ignoriert werden, aber die hochgeladenen Bilder trotzdem in der Bildersuche erscheinen. Dann wird die Blogger-Seite ausgeschlossen, weil ich nicht mit den Inhalten fremder Blogs gefunden werden will und schlussendlich werden alle Urls, die auf „trackback“ enden ignoriert. Und dann – speziell für den Googlebot – kommt der Hinweis, dass die Feeds ebenfalls ignoriert werden sollen. Testen kann man das verhalten des Googlebots übrigens hervorragend mit den Google Webmaster Tools.
Frank Helmschrott beschreibt in seinem Blog noch eine andere Möglichkeit und zwar über ein Plugin, das im Feed einen bestimmten Wert setzt, der scheinbar auch die Indizierung durch Suchmaschinen verhindert.
Übrigens halten sich Dienste wie Blogfox, Feedster und Blogpulse an die Regeln in der robots.txt. Schreibt man die Feedregeln also in den Abschnitt für alle Bots wird man also wahrscheinlich nichts mehr von solchen Diensten haben. Technorati scheint sich aber nicht daran zu halten … eigentlich eine Frechheit. Wie es mit dem oben genannten Plugin aussieht? Keine Ahnung … ich finde die robots.txt Variante eleganter und hoffe, dass die Suchergebnisse bald auch tatsächlich nur Artikel und nicht irgendwelche Feeds hervorbringen :-)
Kommentare
2 Antworten zu „Feeds und die robots.txt“
Der Tipp mit der robots.txt nutze ich auch seit längerem. Zusätzlich habe ich noch „nofollow“ bei den Feed//Trackback Urls drin. Nach dem Motto „doppelt hält besser“ ;-)
Hallo Holger, hast du das schon länger drin und warum nofollow? Sollte das nicht noindex sein? Und weißt du dann, ob sich Technorati&Co daran stören?
Ich habe noindex bei allen Seiten, die nicht die Startseite oder Artikelseiten sind und hoffe so zu verhindern, dass bei den Suchergebnissen auch mal Tag- bzw. Kategorie-Übersichten erscheinen.