Collection Contents Zurück Weiter PDF

ASA Datenbankadministration

Internationale Sprachen und Zeichensätze

Zeichensätze in Software

Codepages


Bei vielen Sprachen ist die Anzahl der Zeichen so gering, dass ein Byte ausreicht, um alle Zeichen zu beschreiben. In einem solchen Einbyte-Zeichensatz wird jedes Zeichen durch ein Byte repräsentiert: eine zweistellige hexadezimale Zahl.

Insgesamt können nicht mehr als 256 Zeichen in einem Einbyte-Zeichensatz dargestellt werden. In keinem Einbyte-Zeichensatz können alle weltweit verwendeten Buchstaben, einschließlich aller Sonderzeichen, gespeichert werden. Dieses Problem wurde durch die Entwicklung so genannter Codepages gelöst, in denen eine Gruppe von Zeichen beschrieben wird, die jeweils für eine Sprache geeignet sind. Beispiel: Codepage 869 enthält den griechischen Zeichensatz und Codepage 850 enthält einen internationalen Zeichensatz, mit dem viele Zeichen in einer Vielzahl von Sprachen angezeigt werden können.

Untere und obere Seiten 

Mit wenigen Ausnahmen sind die Zeichen 0 bis 127 für alle Einbyte-Codepages identisch. Die Zuordnung dieses Zeichenbereichs nennt man ASCII-Zeichensatz. Er enthält das Alphabet der englischen Sprache in Groß- und Kleinbuchstaben, sowie einige wichtige Satzzeichen und Sonderzeichen. Dieser Bereich wird auch als 7-Bit-ASCII (da nur sieben Bit für die Darstellung der Zahlen bis 127 benötigt werden) oder untere Codepage bezeichnet. Die Zeichen zwischen 128 und 255 werden erweiterte Zeichen oder obere Codepage-Zeichen genannt, sie unterscheiden sich je nach Codepage.

Probleme mit der Kompatibilität von Codepages treten nur selten auf, wenn die einzigen benutzten Zeichen aus dem englischen Alphabet stammen, da diese im ASCII-Bereich der Codepage (0 bis 127) vorkommen. Wenn hingegen andere Zeichen benutzt werden, wie dies im Allgemeinen bei Deutsch der Fall ist, kann es zu Problemen kommen, wenn die Datenbank und die Anwendung unterschiedliche Codepages verwenden.

Beispiel 

Nehmen wir einmal an, eine Datenbank mit französischen Texteinträgen benutzt Codepage 850 und das Betriebssystem auf dem Client benutzt 437. Das Zeichen À (großes A mit Accent grave) wird in der Datenbank als Zeichen \xB7 (dezimal 183) gespeichert. In der Codepage 437 ist das Zeichen \xB7 ein grafisches Zeichen. Die Clientanwendung erhält dieses Byte, und das Betriebssystem zeigt es auf dem Bildschirm an - der Benutzer sieht an Stelle von À ein grafisches Symbol.


ANSI- und OEM-Codepages in Windows

Collection Contents Zurück Weiter PDF