Offensichtliche CSS-bugs der Internet Explorer Versionen, können mit conditional comments am einfachsten behoben werden.
Die meisten Unstimmigkeiten in Bezug zum Webstandard gibts es beim frühen IE5 und IE6. Aber auch noch bei späteren Versionen des Internet Explorers finden sich einige unzureichende Bezüge zu Webstandards.
Man
kann sagen, erst ab dem Internet Explorer 8 kann man problemlos
aus dem Stand heraus Webseiten auch für den Internet Explorer
einrichten - ohne Testorgien, die damit verbunden wären. Dem Internet
Explorer bis einschliesslich Version 6
darf man noch nicht trauen.
Noch gibt es aber viele, die mit alten IE's im
Netz rum surfen und man sollte auf diese Diskrepanzen achten.
Mit dem kostenlosen IE-Tester wird das Testen erleichtert, der als eigenständiger Browser die verschiedenen IE-Versionen rendert, die man beim IE-Tester jeweils relativ bequem in einem neuen tab auswählen kann.
Hinweis:
Eventuell gilt es die Eula Lizenz zu beachten, d.h.: Man
darf demnach nur ein Windows
Produkt installieren und nutzen, wenn man auch ein Windows
Betriebssystem hat. Ich bin mir nicht sicher, in wie weit der IE-Tester
von der Eula-Lizenz befreit ist. Deswegen vorsichtshalber (aus
rechtlicher Hinsicht ) der Hinweis.
http://www.my-debugbar.com/wiki/IETester/HomePage
Der Entwickler entwickelt das Programm weiter und beabsichtigt neue IE-Versionen stets zu integrieren und es gibt sogar ein Forum auf seinen Web-Seiten um Vorschläge zum Programm zu machen.
Die Seite ist in englischer Sprache:
Mit dem dort kostenlos downloadbaren Javascript, kann man
seine Email-Adresse
vor Robots verstecken.
Trotzdem funktioniert das Aufrufen von
"mail@to". Wenn
man auf die Mailadresse klickt, öffnet sich wie gewünscht Outlook bzw.
Thunderbird
usw. (je nachdem welchen Email
Klient man installiert hat). Eine super Sache!
Es ist die nutzerfreundlichste Variante, um die Erfassung von Robots zu vermeiden.
Wenn ein Nutzer Javaskript nicht angeschaltet hat, erscheint
stattdessen zB: name[dot]websowieso.fr;
das heisst, der Nutzer muss
dann eben [dot] als Punkt übersetzen.
Nur sehr wenige Nutzer des
Internets haben javascript ausgeschaltet. Es gibt übrigens auch tools,
(Add-on: nojavascript),
die man entsprechend konfigurieren kann, wo man etwa
javascript
kurzfristig einschalten oder vertrauenswürdige Seiten hinzufügen kann
auf die Seite der Ausnahmen. Das nebenbei erwähnt (fürs Browsen nutze
ich das ausgiebig, viele Werbung wird so verhindert, und etwaige
Hackercodes oder Trojaner haben weniger Chancen!).
Man kann diese Alternativangabe auch variieren und das originale @-Zeichen auch als Bild darstellen. Nähere Informationen auf der verlinkten Seite.
Email Such- Roboter können nur die mail@to Angabe lesen.
Mit google Webmaster-Tools kann man auf bequeme Art und Weise regelmässig kontrollieren, ob es fehlerhafte Links auf seinen Webseiten gibt.
Google zeigt auch an, von welcher Seite die nicht erreichbaren Webseiten aus aufgerufen werden.
https://www.google.com/webmasters/tools/dashboard?hl=de
Mir ist dieses Google-Tool ein sehr nützliches Werkzeug geworden, neben dem Linkcheck Tool von W3c.orgoder besser noch dem Total-Validator, mit dem man Links gleichzeitig mit dem Quellcode der Seite validieren kann.
Mit dem Google-Tool ist es auch möglich zu schauen, ob externe Webseiten auf einen nicht vorhandenen Link verweisen.
Man speichert am sichersten eine Logdatei auf der eigenen
Homepage, und schreibt besser nicht einen <meta>-Vermerk
im
Quelltext
auf die eigene index.html
Webseite. Obwohl der Zugang zum Google-Webmaster-Tool-Account ein
Kennwort benötigt, erscheint es mir einfach sinnvoller, den anderen Weg
zu gehen und eine Logdatei im Hauptverzeichnis zu speichern, dessen
Namen andere nicht einsehen können.
Eine dieser beiden Varianten ist nötig, damit man die Google
Ergebnisse auswerten kann, also damit Google weiss, dass man selbst der
Seiteninhaber ist - und dass kein anderer dies mit Deinen Seiten
tun kann (Datenschutz).
Auf die Links der eigenen Seiten bezogen geht es noch einfacher mit dem folgenden Sitemap-Generator; er zeigt an, ob ein Link innerhalb der eigenen Domain fehlerhaft ist (man gebraucht den Sitemap Generator also nur zum Linkcheck und nicht, um eine "Sitemap" zu erstellen):
http://www.sitemapdoc.com/Default.aspx
Wenn jemand von aussen (zB aus Suchergebnissen einer Suchmaschine) auf eine einzelne Frame-Seite zugreift, wird das übergeordnete Frameset und andere zugehörende Frames nicht mitgeladen, sondern nur der einzelne Frame ohne seinen Bezug zum Ganzen.
Das kann unerwünschte Ergebnisse bringen, mitunter fehlt so auch der Hinweis auf denn Seiteninhaber (Impressumspflicht), wenn man das Impressum in einem anderen Frame gesetzt hat.
Mit einer einzelnen javascript Zeile lässt sich einfach
bewerkstelligen, dass in einem solchen Fall die im Javascript
angegebene Seite geladen wird.
Der URL-Verweis im Javascript 'http://www.deine-domain.dd/seite.html' muss mit der eigenen Seitenadresse ersetzt werden, die das übergeordnete Frameset enthält, aus dem alle einzelnen Frames geladen werden.
Kommt der Besucher von einer Seite der eigenen Domainadresse, wird das
Javascript nicht aktiviert.
<script type="text/javascript" language="javascript">
if (parent.location.href == self.location.href) {window.location.href =
'http://www.deine-domain.fr/seite.html';}</script>
Das Skript muss innerhalb des Head-Bereichs
stehen.
Der
Verweis kann auch in einer relativen Adresse bestehen zB: 'seite.html',
was eine Adresse kennzeichnet ausgehend vom Verzeichnis, in dem der einzelne Frame mit dieser Javaskriptzeile steht.
Dieses Frame wird mit dem
Javascript dazu gezwungen, das
übergeordnete Frameset zu laden.
Es handelt sich im Grunde um eine
Weiterleitung unter einer bestimmten Bedingung (if).
Wenn der Nutzer aber so gut wie alle Internetfunktionen seines Browser ausschaltet (zB bei Internet Explorer), könnte unter Umständen die Weiterleitung nicht funktionieren.
Allein Javascript im Browser zu deaktivieren, wie es bei Firefox möglich ist, scheint sich aber nicht auf diese obige direkte Javascript Anweisung auszuwirken (man kann dies einfach selbst testen).
Man kann auch robots.txt benutzen, um einzelnde Dateien oder ganze Verzeichnisse davon abzuhalten, von einer Suchmaschine indiziert zu werden. Auch auf diese Weise kommen einzelne Frame Seiten nicht in den Index, sofern diese Seiten bei robots.txt genannt werden!
Bei
einem Nutzer geladen werden könnten einzelne Frames bei
dieser Variante mit robots.txt theoretisch allerdings schon.
Man
kann Webseiten für Suchmaschinen ausschließen, wofür
es verschiedene Notwendigkeiten oder Einsatzgebiete geben mag.
Man mag
sich immerhin vorstellen, wie auch Such-Roboter die Bandbreite
und traffic
auf Dauer etwas belasten könnten. Wenn Bilder jedes Mal bei bestimmten
Suchbegriffen bei google erscheinen, könnte dies auf lange Sicht
durchaus ins Gewicht fallen.
Ich selbst schliesse alle Ordner aus, in denen sich Bilder befinden
und ich schliesse alle die Seiten aus, in denen die html-Datei im
Grunde bloß einen
Aufbewahrungsort für Bilder bedeutet. Sie sind zugleich auch allesamt
Frames und liegen allesamt in einem eigenen Verzeichnis.
Daran sieht man auch, wie nützlich es ist, von vorneherein eine geordnete Verzeichnisstruktur mit gruppierten html-Seiten anzulegen. So kann man zB alle Bilder einer Webseite stets unter einem Verzeichnisnamen "img" ablegen, alle CSS-Dateien oder Javascripte unter "data", und dann braucht man in der Robotsdatei nur noch schreiben:
User-agent: *
Disallow: /data/
Disallow: /img/
Erste
Angabe bezieht sich auf den bot, den man ansprechen will, mit dem Stern
beziehen sich alle weiteren Angaben auf alle Bots.
Und /data/ bezeichnet jedes Verzeichnis dieses Namens - aber Vorsicht: /data ohne den letzten Schrägstrich würde alle Dateien und Ordner ausschliessen, die mit "data~" im Namen beginnen.
Eine Sektion wird mit User-Agent eingeleitet, und eine Sektion gilt nur bis zum nächsten User-Agent. Auf diese Weise könnte man zB verschiedene bots ansprechen. Man braucht auch nur einen User-Agent angegeben, eben mit dem * für alle bots.
Die robots.txt muss im Plural bezeichnet sein (also nicht robot.txt sondern robots.txt). Die robots.txt Datei muss im Hauptverzeichnis der Domain liegen.
Näheres zur robots.txt Datei und möglichen Optionen wird auf folgender Webseite erklärt:
Weiterführende Informationen und Details auch hier (zB ein ganzes Verzeichnis ausschliessen, aber wiederum eine einzelne Datei dieses Verzeichnisses zulassen) :