Firefoxtools. Ein Beispiel (es gibt vielleicht bessere): Linkalert. Wenn man Links prüfen will, ob sie zB das "_target" Attribut aufweisen, ist dieses Tool gut geeignet. Mit diesem Tool muss man allerdings die einzelnen Links mit der Mouse abfahren.
Linkchecker, Pinger , zwei Addons für Firefox, sind gut geeignet und eigens für die Linkprüfung entwickelt worden...
Software Xenus Links Sleuth: http://www.heise.de..xenus_link_sleuth/5981
Auf die Links der eigenen Seiten bezogen geht es aucgh gut mit dem folgenden Sitemap-Generator; er zeigt an, ob ein Link innerhalb der eigenen Domain fehlerhaft ist (man gebraucht den Sitemap Generator also nur zum Linkcheck und nicht, um eine "Sitemap" zu erstellen):
http://www.sitemapdoc.com/Default.aspx
W3C-Linkchecker: http://validator.w3.org/checklink/
Wenn jemand von aussen (zB aus Suchergebnissen einer Suchmaschine) auf eine einzelne Frame-Seite zugreift, wird das übergeordnete Frameset und andere zugehörende Frames nicht mitgeladen, sondern nur der einzelne Frame ohne seinen Bezug zum Ganzen.
Das kann unerwünschte Ergebnisse bringen, mitunter fehlt so auch der Hinweis auf denn Seiteninhaber (Impressumspflicht), wenn man das Impressum in einem anderen Frame gesetzt hat.
Mit einer einzelnen javascript Zeile lässt sich einfach
bewerkstelligen, dass in einem solchen Fall die im Javascript
angegebene Seite geladen wird.
Der URL-Verweis im Javascript 'http://www.deine-domain.dd/seite.html' muss mit der eigenen Seitenadresse ersetzt werden, die das übergeordnete Frameset enthält, aus dem alle einzelnen Frames geladen werden.
Kommt der Besucher von einer Seite der eigenen Domainadresse, wird das
Javascript nicht aktiviert.
<script type="text/javascript" language="javascript">
if (parent.location.href == self.location.href) {window.location.href =
'http://www.deine-domain.fr/seite.html';}</script>
Das Skript muss innerhalb des Head-Bereichs
stehen.
Der
Verweis kann auch in einer relativen Adresse bestehen zB: 'seite.html',
was eine Adresse kennzeichnet ausgehend vom Verzeichnis, in dem der einzelne Frame mit dieser Javaskriptzeile steht.
Dieses Frame wird mit dem
Javascript dazu gezwungen, das
übergeordnete Frameset zu laden.
Es handelt sich im Grunde um eine
Weiterleitung unter einer bestimmten Bedingung (if).
Wenn der Nutzer aber so gut wie alle Internetfunktionen seines Browser ausschaltet (zB bei Internet Explorer), könnte unter Umständen die Weiterleitung nicht funktionieren.
Allein Javascript im Browser zu deaktivieren, wie es bei Firefox möglich ist, scheint sich aber nicht auf diese obige direkte Javascript Anweisung auszuwirken (man kann dies einfach selbst testen).
Man kann auch robots.txt benutzen, um einzelnde Dateien oder ganze Verzeichnisse davon abzuhalten, von einer Suchmaschine indiziert zu werden. Auch auf diese Weise kommen einzelne Frame Seiten nicht in den Index, sofern diese Seiten bei robots.txt genannt werden!
Bei einem Nutzer geladen werden könnten einzelne Frames bei dieser Variante mit robots.txt theoretisch allerdings schon.
Die Seite ist in englischer Sprache:
Mit dem dort kostenlos downloadbaren Javascript, kann man
seine Email-Adresse
vor Robots verstecken.
Trotzdem funktioniert das Aufrufen von
"mail @to". Wenn
man auf die Mailadresse klickt, öffnet sich wie gewünscht Outlook bzw.
Thunderbird
usw. (je nachdem welchen Email
Klient man installiert hat). Eine super Sache!
Es ist die nutzerfreundlichste Variante, um die Erfassung von Robots zu vermeiden.
Wenn ein Nutzer Javaskript nicht angeschaltet hat, erscheint
stattdessen zB: name[dot]websowieso.fr;
das heisst, der Nutzer muss
dann eben [dot] als Punkt übersetzen.
Nur sehr wenige Nutzer des
Internets haben javascript ausgeschaltet. Es gibt übrigens auch tools,
(Add-on: nojavascript),
die man entsprechend konfigurieren kann, wo man etwa
javascript
kurzfristig einschalten oder vertrauenswürdige Seiten hinzufügen kann
auf die Seite der Ausnahmen. Das nebenbei erwähnt (fürs Browsen nutze
ich das ausgiebig, viele Werbung wird so verhindert, und etwaige
Hackercodes oder Trojaner haben weniger Chancen!).
Man kann diese Alternativangabe auch variieren und das originale @-Zeichen auch als Bild darstellen. Nähere Informationen auf der verlinkten Seite.
Email Such- Roboter können nur die mail @to Angabe lesen.
Man
kann Webseiten für Suchmaschinen ausschließen, wofür
es verschiedene Notwendigkeiten oder Einsatzgebiete geben mag.
Man mag
sich immerhin vorstellen, wie auch Such-Roboter die Bandbreite
und traffic
auf Dauer etwas belasten könnten. Wenn Bilder jedes Mal bei bestimmten
Suchbegriffen bei google erscheinen, könnte dies auf lange Sicht
durchaus ins Gewicht fallen.
Ich selbst schliesse alle Ordner aus, in denen sich Bilder befinden
und ich schliesse alle die Seiten aus, in denen die html-Datei im
Grunde bloß einen
Aufbewahrungsort für Bilder bedeutet. Sie sind zugleich auch allesamt
Frames und liegen allesamt in einem eigenen Verzeichnis.
Daran sieht man auch, wie nützlich es ist, von vorneherein eine geordnete Verzeichnisstruktur mit gruppierten html-Seiten anzulegen. So kann man zB alle Bilder einer Webseite stets unter einem Verzeichnisnamen "img" ablegen, alle CSS-Dateien oder Javascripte unter "data", und dann braucht man in der Robotsdatei nur noch schreiben:
User-agent: *
Disallow: /data/
Disallow: /img/
Erste
Angabe bezieht sich auf den bot, den man ansprechen will, mit dem Stern
beziehen sich alle weiteren Angaben auf alle Bots.
Und /data/ bezeichnet jedes Verzeichnis dieses Namens - aber Vorsicht: /data ohne den letzten Schrägstrich würde alle Dateien und Ordner ausschliessen, die mit "data~" im Namen beginnen.
Eine Sektion wird mit User-Agent eingeleitet, und eine Sektion gilt nur bis zum nächsten User-Agent. Auf diese Weise könnte man zB verschiedene bots ansprechen. Man braucht auch nur einen User-Agent angegeben, eben mit dem * für alle bots.
Die robots.txt muss im Plural bezeichnet sein (also nicht robot.txt sondern robots.txt). Die robots.txt Datei muss im Hauptverzeichnis der Domain liegen.
Näheres zur robots.txt Datei und möglichen Optionen wird auf folgender Webseite erklärt:
Weiterführende Informationen und Details auch hier (zB ein ganzes Verzeichnis ausschliessen, aber wiederum eine einzelne Datei dieses Verzeichnisses zulassen) :