Alles hat seine Eigenschaften, so auch die Sache mit den user agents. Zum einen verfolgen sie den Zweck, zu indizieren, um Inhalte bekannt zu machen, zu archivieren, zu publizieren. Zum anderen suchen sie nach Inhalten im Auftrage der Musikindustrie, der Film- und Videobranche, der Marketingindustrie, der Maren- und Patentanwälte, der Verlage und Medienanstalten. Die Ergebnisse sind immer dieselben - die Interessen an den Resultaten unterscheiden sich allerdings erheblich: die einen wollen Plagiate finden, die anderen, z.B. archive.org, Inhalte für die Nachwelt sichern und dokumentieren oder, oberflächlich gesehen, nur "Hilfreiches" für den Nutzer, nämlich schnell was finden. Aber genau da setzt auch schon die Zwickmühle für den Webmaster / bzw. Marketingmanager (ich hasse das f... buzzword SEO, weil es von Sprücheklopfern erfunden ist, sorry!) an. Was mache ich, wenn die Musikindustrie archive.org nutzt, um nach alten Spuren von Plagiaten auf meiner Website zu suchen? Sperre ich den robot von archiv.org jetzt aus oder lasse ich ihn weiter indizieren und kopieren? Das sind immer sehr individuelle Entscheidungen, die ich persönlich an den Bedürfnissen des Websiteinhabers und den stratregischen Zielen der Site festmache, mit Checklisten. Es hat langfristig eventuell fatale Auswirkungen, wenn kurzfristig schnell geschossen wird, weil ein Bot durch Häufigkeit aus der Reihe tanzt oder irreführende Gerüchte die Runde machen. Die robots.txt ist nur ein Hilfsmittel unter vielen (viel wichtiger ist die .htaccess, alternativ PHP-Sripte mit gleichem Ziel). Die robots.txt wird regelmäßig von allen wichtigen Botbetreibern beachtet, nur einige wenige halten sich nicht daran. Unter den letzteren sind eigentlich nur diejenigen, die für Linkfarmen tätig sind, die sich mit dem Zusammentragen von Kerninfos fremder Websites und den Links darauf wiederum bessere Platzierungen bei den Suchmaschinen erschleichen wollen. Dem hat aber Google zumindest mit einem aktuell völlig neuen Suchalgorithmus einen kräftigen Dämpfer verpasst! Oft werden in der Diskussion um die Bots Spammer und Suchrobots gleichgesetzt oder in die Nähe gerückt. Dem ist nicht so. Der gemeine kleine oder - scriptgesteuert - große Spammer, getarnt mit einer Normalbrowserkennung oder auch ganz ohne Angaben von Browser etc., müllt die Kommentarfelder, die Kontaktformulare, die offenen Foren (Gastfunktionen) und alles weitere, was ohne Login oder Captchas auskommt, zu. Auch automatisierte Anmeldungen kommen vor, sind aber meist nicht intelligent gemacht, d.h., an den Anmeldedaten erkennt man die Wichtel recht schnell. Diese Spammer schließt man bestenfalls über Blacklists aus, denn ansonsten muss man die IPs oder IP-Ranges beobachten und manuell in die .htaccess einpflegen. Die robots.txt ist hier völlig wirkungslos, da sie einfach nicht beachtet wird. Blacklists können aber ebenfalls missbraucht werden, denn ich kann dort als Betreiber der Liste auch die IPs von Orgnaisationen und Personen hineinpacken, denen ich damit dann die Teilnahme am Internetleben mittelfristig arg schmälere, obwohl sie sich nichts haben zu schulden kommen lassen. Juristisch sind die Blacklists eh höchst zweifelhaft, denn für sie müsste international erst einmal eine einheitliche Grundlage geschaffen werden. Für mich sind sie noch zweifelhafter, weil sie überwiegend aus den USA gepflegt werden und ich vermute, dass es auch politische Einflüsse auf sie gibt. Die Bots hingegen spammen nicht, sie futtern die Inhalte, speichern sie, indizieren sie und nutzen sie, oftmals auch in gesetzteswidriger Form (Deutschland, woanders ist es anders!). Aber sie selbst spammen nicht und haben oft auch eine Spiderkennung, die man aus den Serverlogs locker herauslesen und den Suchmaschinen oder den Organisationen zuordnen kann; allerdings lässt sich eine solche Kennung vom Betreiber auch faken und innert Minuten ändern! Viele Bots sind allerdings wirklich eine Plage undnutzen nur speziellen Zwecken bestimmter Interessengruppen. Auf caba. de sehe ich zur Zeit weniger die Gefahr, mit Werbung oder Unsinn (den wir nicht selbst verzapfen :D ) verseucht zu werden. Die kleine Sicherheitsfrage für den Gast ("wer ist cooler") führt bei automatisierten Massenschreibversuchen zur Aufgabe (deshalb musste auch heute eine Person händisch die vier oder fünf Werbebeiträge reinhauen, das war nicht automatisiert!); ich rate allerdings, diese Sicherheitsfrage alle drei Monate zu wechseln (gesamt drei Fragen, das reicht für neun Monate, danach wieder mit eins anfangen). Eine höhere Hürde - Registrierung für alle Schreibenden - halte ich für ein Zugangshemmnis angesichts der Zielsetzung dieser Website. Die weitaus größere Gefahr entsteht auf caba.de aus meiner Sicht aus möglichen Rechtsverletzungen (Urheberrecht, Persönlichkeitsrechte), da hier noch keine Kontrollmechanismen und -regeln publik gemacht wurden oder bekannt / bewusst sind. Die nächste Gefahr kommt aus dem Bereich der Kataloge und Listen, wo caba.de aufgrund bestimmter Stichworte geführt wird, aber nicht geführt werden sollte, weil die Zielsetzung der Site in eine andere Richtung geht; es sei denn John Caba himself erklärt der Pornoindustrie einen Kampf um Besucher :roll: . Hier können einige Bots der Medienindustrie abgehalten werden, zu indizieren, aber es wird nie eine vollständige Kontrolle oder Sperre möglich sein. Der Ansatz liegt immer - und das ist eine Kernaussage - bei einer angemessenen Inhaltsgestaltung und -lenkung. Da Freiheit auch immer die Freiheit des anderen ist, müssen bestimmte Grenzen respektiert und eingehalten werden, auch unter bewusster Inkaufnahme von Inhaltslöschungen. Eine robots.txt kann manuell so wie diese (Auszug aus einer eigenen dauergepflegten Musterdatei) aufgebaut werden (Achtung, Arbeit!): # archive.org, wayback-Maschine# wird negativ genutztUser-agent: ia_archiverDisallow: /# websitewiki.de# kommerzieller BetreiberUser-agent: WebsiteWikiDisallow: /# Psbot, picsearch.com# http://www.picsearch.com/menu.cgi?item=Psbot# kommerzieller Betreiber, NachforschungenUser-agent: psbotDisallow: /# http://www.bots-on-para.de/bot.html# BotOnParade, Bots on parade# kommerzieller BetreiberUser-agent: BotOnParadeDisallow: /# http://hilfe.vedens.de/, VEDENS.de# kommerzieller BetreiberUser-agent: VEDENSBOTDisallow: /# TopBlogsInfo/2.0; +topblogsinfo@gmail.com# kommerzieller BetreiberUser-agent: TopBlogsInfoDisallow: /# "mmonitor/Nutch-1.0 (MarkMonitor Robots; http://www.markmonitor.com; tlin@markmonitor.com)"# kommerzieller Betreiber, MarkenwächterUser-agent: mmonitorDisallow: /# "Mozilla/5.0 (compatible; jobs.de-Robot +http://www.jobs.de)"# Sucht Stellenanzeigen, gibts hier nicht, wollen wir nichtUser-agent: jobs.de-RobotDisallow: /# "TurnitinBot/2.1 (http://www.turnitin.com/robot/crawlerinfo.html)"# Sucht für erziehungseinrichtungen Plagiate, Schnüffler!User-agent: turnitinbotDisallow: /
Ich hoffe, dass ich etwas Nützliches beitragen konnte. Zum Thema Suchmaschinen Optimierung (bääääh, mich würgts, man optimiert für Kunden / Klienten / Besucher / Gäste, aber nicht für Suchmaschinen) kann ich nur abschließend bemerken: zuerst kommt der Content, dann nix, dann nix, dann die saubere Programmierung zzgl. Pflegearbeiten wie Linkprüfungen und dem ganzen Schmonzes, denn die Suchmaschinen belohnen einfaches Finden, dafür sind sie ja da und der Rest ist Hokus und Pokus. Im schlimmsten Falle katapultiert man sich mit bestimmten reißerischen Verfahren selbst aus der Trefferliste, wie einst BMW mit den landing pages, hehehe.