in

Que sont les codages de caractères comme ANSI et Unicode, et en quoi diffèrent-ils?

ASCII, UTF-8, ISO-8859… Vous avez peut-être vu ces étranges surnoms flotter, mais que signifient-ils réellement? Continuez à lire pendant que nous expliquons ce qu’est le codage de caractères et comment ces acronymes se rapportent au texte brut que nous voyons à l’écran.

Blocs de construction fondamentaux

Lorsque nous parlons de langage écrit, nous parlons de lettres comme éléments constitutifs des mots, qui construisent ensuite des phrases, des paragraphes, etc. Les lettres sont des symboles qui représentent des sons. Lorsque vous parlez de langage, vous parlez de groupes de sons qui se rassemblent pour former une sorte de sens. Chaque système linguistique a un ensemble complexe de règles et de définitions qui régissent ces significations. Si vous avez un mot, il est inutile à moins que vous ne sachiez de quelle langue il provient et que vous l’utilisez avec d’autres qui parlent cette langue.

(Comparaison des scripts Grantha, Tulu et Malayalam, Image de Wikipédia)

Dans le monde des ordinateurs, nous utilisons le terme «personnage». Un personnage est une sorte de concept abstrait, défini par des paramètres spécifiques, mais c’est l’unité fondamentale de sens. Le latin «A» n’est pas le même qu’un grec «alpha» ou un arabe «alif» parce qu’ils ont des contextes différents – ils sont de langues différentes et ont des prononciations légèrement différentes – nous pouvons donc dire que ce sont des caractères différents. La représentation visuelle d’un caractère est appelée «glyphe» et différents ensembles de glyphes sont appelés polices. Les groupes de personnages appartiennent à un «ensemble» ou à un «répertoire».

Lorsque vous tapez un paragraphe et que vous modifiez la police, vous ne modifiez pas les valeurs phonétiques des lettres, vous modifiez leur apparence. C’est juste cosmétique (mais pas sans importance!). Certaines langues, comme l’ancien égyptien et le chinois, ont des idéogrammes; ceux-ci représentent des idées entières au lieu de sons, et leurs prononciations peuvent varier avec le temps et la distance. Si vous remplacez un personnage par un autre, vous substituez une idée. C’est plus que changer des lettres, c’est changer un idéogramme.

Encodage de caractère

(Image de Wikipédia)

Lorsque vous tapez quelque chose sur le clavier ou chargez un fichier, comment l’ordinateur sait-il ce qu’il doit afficher? C’est à cela que sert le codage des caractères. Le texte sur votre ordinateur n’est pas en fait des lettres, c’est une série de valeurs alphanumériques appariées. Le codage des caractères agit comme une clé pour laquelle les valeurs correspondent à quels caractères, tout comme l’orthographe dicte quels sons correspondent à quelles lettres. Le code Morse est une sorte d’encodage de caractères. Il explique comment les groupes d’unités longues et courtes telles que les bips représentent les caractères. En code Morse, les caractères ne sont que des lettres anglaises, des chiffres et des points. Il existe de nombreux encodages de caractères informatiques qui se traduisent par des lettres, des chiffres, des accents, des signes de ponctuation, des symboles internationaux, etc.

Souvent, sur ce sujet, le terme «pages de codes» est également utilisé. Ce sont essentiellement des encodages de caractères tels qu’utilisés par des entreprises spécifiques, souvent avec de légères modifications. Par exemple, la page de codes Windows 1252 (anciennement connue sous le nom de ANSI 1252) est une forme modifiée de l’ISO-8859-1. Ils sont principalement utilisés comme système interne pour faire référence à des encodages de caractères standard et modifiés spécifiques aux mêmes systèmes. Au début, le codage des caractères n’était pas si important car les ordinateurs ne communiquaient pas entre eux. Avec Internet prenant de l’importance et le réseautage étant un phénomène courant, il est devenu de plus en plus important dans notre vie quotidienne sans même que nous nous en rendions compte.

De nombreux types différents

(Image de sarah sosiak)

Il existe de nombreux encodages de caractères différents, et il y a de nombreuses raisons à cela. Le codage de caractères que vous choisissez d’utiliser dépend de vos besoins. Si vous communiquez en russe, il est judicieux d’utiliser un encodage de caractères qui prend bien en charge le cyrillique. Si vous communiquez en coréen, vous voudrez quelque chose qui représente bien le Hangul et le Hanja. Si vous êtes mathématicien, vous voulez quelque chose qui a tous les symboles scientifiques et mathématiques bien représentés, ainsi que les glyphes grecs et latins. Si vous êtes un farceur, vous bénéficierez peut-être d’un texte à l’envers. Et, si vous voulez que tous ces types de documents soient consultés par une personne donnée, vous voulez un encodage assez courant et facilement accessible.

Jetons un coup d’œil à certains des plus courants.

(Extrait du tableau ASCII, Image de asciitable.com)

  • ASCII – L’American Standard Code for Information Interchange est l’un des plus anciens encodages de caractères. Il a été conçu à l’origine sur la base de codes télégraphiques et a évolué au fil du temps pour inclure plus de symboles et certains caractères de contrôle non imprimés désormais obsolètes. C’est probablement aussi basique que possible en termes de systèmes modernes, car il est limité à l’alphabet latin sans caractères accentués. Son encodage 7 bits ne permet que 128 caractères, c’est pourquoi plusieurs variantes non officielles sont utilisées dans le monde.
  • ISO-8859 – Le groupe de codages de caractères le plus largement utilisé de l’Organisation internationale de normalisation est le numéro 8859. Chaque codage spécifique est désigné par un numéro, souvent précédé d’un moniker descriptif, par exemple ISO-8859-3 (Latin-3), ISO-8859-6 (Latin / arabe). C’est un sur-ensemble d’ASCII, ce qui signifie que les 128 premières valeurs de l’encodage sont les mêmes que l’ASCII. Cependant, il est 8 bits et autorise 256 caractères.Il se construit donc à partir de là et comprend un éventail beaucoup plus large de caractères, chaque codage spécifique se concentrant sur un ensemble de critères différent. Latin-1 comprenait un tas de lettres et de symboles accentués, mais a ensuite été remplacé par un ensemble révisé appelé Latin-9 qui comprend des glyphes mis à jour comme le symbole de l’euro.

(Extrait du script tibétain, Unicode v4, de unicode.org)

  • Unicode – Cette norme d’encodage vise l’universalité. Il comprend actuellement 93 scripts organisés en plusieurs blocs, avec de nombreux autres en préparation. Unicode fonctionne différemment des autres jeux de caractères en ce qu’au lieu de coder directement un glyphe, chaque valeur est dirigée vers un «point de code». Ce sont des valeurs hexadécimales qui correspondent à des caractères mais les glyphes eux-mêmes sont fournis de manière détachée par le programme, tel que votre navigateur Web. Ces points de code sont généralement représentés comme suit: U + 0040 (qui se traduit par «@»). Les encodages spécifiques sous la norme Unicode sont UTF-8 et UTF-16. UTF-8 tente de permettre une compatibilité maximale avec ASCII. Il est 8 bits, mais autorise tous les caractères via un mécanisme de substitution et plusieurs paires de valeurs par caractère. UTF-16 permet une compatibilité ASCII parfaite pour une compatibilité 16 bits plus complète avec la norme.
  • ISO-10646 – Ce n’est pas un encodage réel, juste un jeu de caractères Unicode qui a été normalisé par l’ISO. C’est surtout important car c’est le répertoire de caractères utilisé par HTML. Certaines des fonctions les plus avancées fournies par Unicode qui permettent le classement et le script de droite à gauche à côté de gauche à droite sont manquantes. Néanmoins, cela fonctionne très bien pour une utilisation sur Internet car il permet l’utilisation d’une grande variété de scripts et permet au navigateur d’interpréter les glyphes. Cela rend la localisation un peu plus facile.

Quel encodage dois-je utiliser?

Eh bien, ASCII fonctionne pour la plupart des anglophones, mais pas pour grand chose d’autre. Plus souvent, vous verrez ISO-8859-1, qui fonctionne pour la plupart des langues d’Europe occidentale. Les autres versions d’ISO-8859 fonctionnent pour le cyrillique, l’arabe, le grec ou d’autres scripts spécifiques. Cependant, si vous souhaitez afficher plusieurs scripts dans le même document ou sur la même page Web, UTF-8 permet une bien meilleure compatibilité. Cela fonctionne également très bien pour les personnes qui utilisent la ponctuation, les symboles mathématiques ou les caractères improvisés, tels que les carrés et les cases à cocher.

(Plusieurs langues dans un seul document, capture d’écran de gujaratsamachar.com)

Il y a cependant des inconvénients à chaque ensemble. ASCII est limité dans ses signes de ponctuation, il ne fonctionne donc pas très bien pour les modifications typographiquement correctes. Avez-vous déjà tapé copier / coller à partir de Word uniquement pour avoir une combinaison étrange de glyphes? C’est l’inconvénient d’ISO-8859, ou plus correctement, de sa supposée interopérabilité avec les pages de codes spécifiques au système d’exploitation (nous regardons VOUS, Microsoft!). L’inconvénient majeur de l’UTF-8 est le manque de support approprié dans l’édition et la publication d’applications. Un autre problème est que les navigateurs n’interprètent souvent pas et affichent simplement la marque d’ordre des octets d’un caractère encodé en UTF-8. Cela entraîne l’affichage de glyphes indésirables. Et bien sûr, déclarer un encodage et utiliser des caractères d’un autre sans les déclarer / les référencer correctement sur une page Web rend difficile pour les navigateurs de les rendre correctement et pour les moteurs de recherche de les indexer de manière appropriée.

Pour vos propres documents, manuscrits, etc., vous pouvez utiliser tout ce dont vous avez besoin pour faire le travail. En ce qui concerne le Web, cependant, il semble que la plupart des gens s’accordent sur l’utilisation d’une version UTF-8 qui n’utilise pas de marque d’ordre d’octet, mais ce n’est pas tout à fait unanime. Comme vous pouvez le voir, chaque encodage de caractère a sa propre utilisation, son propre contexte et ses propres forces et faiblesses. En tant qu’utilisateur final, vous n’aurez probablement pas à faire face à cela, mais vous pouvez maintenant faire un pas supplémentaire si vous le souhaitez.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Comment fonctionnent les écouteurs à conduction osseuse?

Comment fonctionnent les écouteurs à conduction osseuse?

Allez-vous prendre le risque et utiliser Windows XP après avril 2014?

Allez-vous prendre le risque et utiliser Windows XP après avril 2014?