Checkliste

Gibt es fehlerhafte Links?

Firefoxtools. Ein Beispiel (es gibt vielleicht bessere): Linkalert. Wenn man Links prüfen will, ob sie zB das "_target" Attribut aufweisen, ist dieses Tool gut geeignet. Mit diesem Tool muss man allerdings   die einzelnen Links mit der Mouse abfahren.

LinkcheckerPinger , zwei Addons für Firefox, sind gut geeignet und eigens für die Linkprüfung entwickelt worden...

Software Xenus Links Sleuth: http://www.heise.de..xenus_link_sleuth/5981

Auf die Links der eigenen Seiten bezogen geht es aucgh gut  mit dem folgenden Sitemap-Generator; er  zeigt an, ob ein Link innerhalb der eigenen Domain fehlerhaft ist (man gebraucht den Sitemap Generator also nur zum Linkcheck und nicht, um eine "Sitemap" zu erstellen): 

http://www.sitemapdoc.com/Default.aspx

W3C-Linkchecker: http://validator.w3.org/checklink/

Frames einzeln laden unterbinden

Wenn jemand von aussen (zB aus Suchergebnissen einer Suchmaschine) auf eine einzelne Frame-Seite zugreift, wird das übergeordnete Frameset und andere zugehörende Frames nicht mitgeladen, sondern nur der einzelne Frame ohne seinen Bezug zum Ganzen.

Das kann unerwünschte Ergebnisse bringen, mitunter fehlt so auch der Hinweis auf denn Seiteninhaber (Impressumspflicht), wenn man das Impressum in einem anderen Frame gesetzt hat.

Mit einer einzelnen javascript Zeile lässt sich einfach bewerkstelligen, dass in einem solchen Fall die im Javascript angegebene Seite  geladen wird.

Der URL-Verweis im Javascript 'http://www.deine-domain.dd/seite.html' muss mit der eigenen Seitenadresse ersetzt werden, die das übergeordnete Frameset enthält, aus dem alle einzelnen Frames geladen werden.

Kommt der Besucher von einer Seite der eigenen Domainadresse, wird das Javascript nicht aktiviert.

<script type="text/javascript" language="javascript">
if (parent.location.href == self.location.href) {window.location.href =
'http://www.deine-domain.fr/seite.html';}</script>

[Download Skript]

Das Skript muss innerhalb des Head-Bereichs stehen.

Der Verweis kann auch in einer relativen Adresse bestehen zB: 'seite.html', was eine Adresse kennzeichnet ausgehend vom Verzeichnis, in dem der einzelne Frame mit dieser Javaskriptzeile steht.
Dieses Frame wird mit dem Javascript dazu gezwungen, das übergeordnete Frameset zu laden. 

Es handelt sich im Grunde um eine Weiterleitung unter einer bestimmten Bedingung (if).

Wenn der Nutzer aber so gut wie alle Internetfunktionen seines Browser ausschaltet (zB bei Internet Explorer), könnte unter Umständen die Weiterleitung nicht funktionieren.

Allein Javascript im Browser zu deaktivieren, wie es bei Firefox möglich ist, scheint sich aber nicht auf diese obige direkte Javascript Anweisung auszuwirken (man kann dies einfach selbst testen). 

Man kann auch robots.txt benutzen, um einzelnde Dateien oder ganze Verzeichnisse davon abzuhalten, von einer Suchmaschine indiziert zu werden. Auch auf diese Weise kommen einzelne Frame Seiten nicht in den Index, sofern diese Seiten bei robots.txt genannt werden! 

Bei einem Nutzer geladen werden könnten einzelne Frames bei dieser Variante mit robots.txt theoretisch allerdings schon.

Email - Schutz vor Spam

Die Seite ist in englischer Sprache: 

http://www.spamspan.com/ 

Mit dem dort kostenlos downloadbaren Javascript, kann man seine Email-Adresse vor Robots verstecken.
Trotzdem funktioniert das Aufrufen von "mail @to". Wenn man auf die Mailadresse klickt, öffnet sich wie gewünscht Outlook bzw. Thunderbird usw. (je nachdem welchen Email Klient man installiert hat). Eine super Sache! 

Es ist die nutzerfreundlichste Variante, um die Erfassung von Robots zu vermeiden.

Wenn ein Nutzer Javaskript nicht angeschaltet hat, erscheint stattdessen zB: name[dot]websowieso.fr; das heisst, der Nutzer muss dann eben [dot] als Punkt übersetzen.
Nur sehr wenige Nutzer des Internets haben javascript ausgeschaltet. Es gibt übrigens auch tools, (Add-on: nojavascript), die man entsprechend konfigurieren kann, wo man etwa javascript kurzfristig einschalten oder vertrauenswürdige Seiten hinzufügen kann auf die Seite der Ausnahmen. Das nebenbei erwähnt (fürs Browsen nutze ich das ausgiebig, viele Werbung wird so verhindert, und etwaige Hackercodes oder Trojaner haben weniger Chancen!).

Man kann diese Alternativangabe auch variieren und das originale @-Zeichen auch als Bild darstellen. Nähere Informationen auf der verlinkten Seite.

Email Such- Roboter können nur die mail @to Angabe lesen.

Robots.txt

Man kann Webseiten für Suchmaschinen ausschließen, wofür es verschiedene Notwendigkeiten oder Einsatzgebiete geben mag.
Man mag sich immerhin vorstellen, wie auch Such-Roboter die Bandbreite und traffic auf Dauer etwas belasten könnten. Wenn Bilder jedes Mal bei bestimmten Suchbegriffen bei google erscheinen, könnte dies auf lange Sicht durchaus ins Gewicht fallen.

Ich selbst schliesse alle Ordner aus, in denen sich Bilder befinden und ich schliesse alle die Seiten aus, in denen die html-Datei im Grunde bloß einen Aufbewahrungsort für Bilder bedeutet. Sie sind zugleich auch allesamt Frames und liegen allesamt in einem eigenen Verzeichnis.

Daran sieht man auch, wie nützlich es ist, von vorneherein eine geordnete Verzeichnisstruktur mit gruppierten html-Seiten anzulegen. So kann man zB alle Bilder einer Webseite stets unter einem Verzeichnisnamen "img" ablegen, alle CSS-Dateien oder Javascripte unter "data", und dann braucht man in der Robotsdatei nur noch schreiben:

User-agent: *
Disallow: /data/
Disallow: /img/

Erste Angabe bezieht sich auf den bot, den man ansprechen will, mit dem Stern beziehen sich alle weiteren Angaben auf alle Bots.

Und /data/ bezeichnet jedes Verzeichnis dieses Namens - aber Vorsicht: /data ohne den letzten Schrägstrich würde alle Dateien und Ordner ausschliessen, die mit "data~" im Namen beginnen.

Eine Sektion wird mit User-Agent eingeleitet, und eine Sektion gilt nur bis zum nächsten User-Agent. Auf diese Weise könnte man zB verschiedene bots ansprechen. Man braucht auch nur einen User-Agent angegeben, eben mit dem * für alle bots.

Die robots.txt muss im Plural bezeichnet sein (also nicht robot.txt sondern robots.txt). Die robots.txt Datei muss im Hauptverzeichnis der Domain liegen.

Näheres zur robots.txt Datei und möglichen Optionen wird auf folgender Webseite erklärt:

http://www.goldmann.de/...

Weiterführende Informationen und Details auch hier (zB ein ganzes Verzeichnis ausschliessen, aber wiederum eine einzelne Datei dieses Verzeichnisses zulassen) :

http://www.edv-beratung-thomas.de/...

Dezember 2008
Stefan Arens
NACH OBEN