Voir le W3C pour une présentation complète des entités.
La norme ISO 8859-1, jeu de caractères officiel de l'HTML 2.0 et 3.2, définit les caractères de code entre 32 et 127 inclus, et entre 160 et 255 inclus.
Le jeu de caractère CP-1252 (codepage 1252, ie. jeu de caractères "Ansi" Windows) est un sur-ensemble de cette norme, en définissant des caractères de code 128 à 159.
Les machines Unix utilisent le jeu de caractères Latin-1 (autrement dit, ISO 8859-1 strict), les machines Macintosh utilisent MacRoman.
En théorie, on peut inclure directement dans un document HTML tous les caractères ISO 8859-1 tel quel.
En pratique, tous les caractères de ce jeu peuvent ne pas être disponibles sur toutes les plateformes :
la plus part des browsers Mac restituent mal les caractères 166, 178, 179, 185, 188, 189, 190, 208, 215, 221, 222, 240, 253, and 254.
De plus, si le document doit être diffusés autrement que via HTTP (par exemple par FTP en mode texte),
certains caractères peuvent être convertis ou mangés par le mécanisme de transport (surtout en protocole 7 bits).
HTML 4.0 introduit des entités pour les caractères figurant dans CP-1252 qui ne sont pas dans les jeux d'entités de HTMLlat1 or HTMLsymbol.
Je ne liste pas dans le tableau les voyelles accentuées, elles sont simplement obtenues par "&<caractère minuscule ou majuscule><caractère diacritique>;".
Le caractère diacritique est "grave" (è), "acute" (é), "uml" (ë), "circ" (ê) et "cecil" (ç).
Pour mémoire, il y a aussi "tilde" (ã) et "ring" (å).
Je ne liste pas non plus "AElig" (Æ) et "aelig" (æ).
Et je donne pour mémoire les quatre copains pour inclure des caractère HTML réservés :
"quot" ("), "amp" (&), "lt" (<) et "gt" (>). À noter que "quot" est rarement utilisé, en pratique l'usage de ce caractère directement dans HTML est bien toléré.
Pour ceux qui se posent la question, 'ÿ' (et sa majuscule) n'est utilisé en français que dans des noms propres : la ville de l'Haÿ-les-Roses, la rue des Cloÿs à Paris, etc.
Et comme chacun sait, 'ù' n'est utilisé que dans "où".
&ent; | &#nnn; | ent | nnn | Description | 8 bits Windows | Numéro CP-1252 |
---|---|---|---|---|---|---|
Standard characters (HTMLlat1) | ISO 8859-1 / Latin-1 | |||||
§ | § | sect | 167 | section sign, U+00A7 ISOnum | § | 0167 |
© | © | copy | 169 | copyright sign, U+00A9 ISOnum | © | 0169 |
« | « | laquo | 171 | left-pointing double angle quotation mark = left pointing guillemet, U+00AB ISOnum | « | 0171 |
® | ® | reg | 174 | registered trade mark sign, U+00AE ISOnum | ® | 0174 |
° | ° | deg | 176 | degree sign, U+00B0 ISOnum | ° | 0176 |
² | ² | sup2 | 178 | superscript [digit] two = squared, U+00B2 ISOnum | ² | 0178 |
³ | ³ | sup3 | 179 | superscript [digit] three = cubed, U+00B3 ISOnum | ³ | 0179 |
¶ | ¶ | para | 182 | pilcrow sign = paragraph sign, U+00B6 ISOnum | ¶ | 0182 |
» | » | raquo | 187 | right-pointing double angle quotation mark = right pointing guillemet, U+00BB ISOnum | » | 0187 |
ÿ | ÿ | yuml | 255 | latin small letter y with diaeresis, U+00FF ISOlat1 | ÿ | 0255 |
Special characters (HTMLspecial) | Latin Extended-A | |||||
Œ | Œ | OElig | 338 | latin capital ligature OE, U+0152 ISOlat2 | Œ | 0140 |
œ | œ | oelig | 339 | latin small ligature oe, U+0153 ISOlat2 | œ | 0156 |
Ÿ | Ÿ | Yuml | 376 | latin capital letter Y with diaeresis, U+0178 ISOlat2 | Ÿ | 0159 |
Special characters (HTMLspecial) | General Punctuation | |||||
– | – | ndash | 8211 | en dash, U+2013 ISOpub | – | 0150 |
— | — | mdash | 8212 | em dash, U+2014 ISOpub | — | 0151 |
‘ | ‘ | lsquo | 8216 | left single quotation mark, U+2018 ISOnum | ‘ | 0145 |
’ | ’ | rsquo | 8217 | right single quotation mark, U+2019 ISOnum | ’ | 0146 |
“ | “ | ldquo | 8220 | left double quotation mark, U+201C ISOnum | “ | 0147 |
” | ” | rdquo | 8221 | right double quotation mark, U+201D ISOnum | ” | 0148 |
† | † | dagger | 8224 | dagger, U+2020 ISOpub | † | 0134 |
‡ | ‡ | Dagger | 8225 | double dagger, U+2021 ISOpub | ‡ | 0135 |
‰ | ‰ | permil | 8225 | per mille sign, U+2030 ISOtech | ‰ | 0137 |
€ | € | euro | 8364 | euro sign, U+20AC | € | 0128 |
Si pas OK, les littérales sont affichés littéralement (on voit par exemple Œ), sauf exceptions.
Si pas OK, les numériques sont remplacées par un carré sous MS IE, et un point d'interrogation sous NS Nav.
Enfin, les caractères Ansi sont toujours correctement affichés sous Windows et MacOS, pas sous Unix.
[Win 4.0 & 5.0] Tout OK
[Mac 4.0 & 4.5] Tout numérique OK, seules les littérales dont les numéros sont <= à 255 sont OK, Yuml -> ÿ.
[Win 3.0] Littérales <= 255 OK, Yuml -> ÿ. Numérique <= 255 OK, OElig -> R, oelig -> S, Yuml -> ÿ, le reste affiché avec des carrés.
[Win 2.0] Seule yuml est OK, le reste est comme 3.0
[Win 4.5] Tout numérique OK, seules les littérales dont les numéros sont <= à 255 sont OK
[Mac 4.03 & 4.5 & 4.72] Littérales <= 255 OK. Numérique tout OK.
[Unix SCO 3.03] Littérales <= 255 OK. Numérique <= 255 OK, les autres affichés "?". Ansi <= 255 OK, le reste est vide.
[Mac 2.02] Littérales : seule yuml est OK. Numérique <= 255 OK, les autres affichés "?".
Oh, pour mémoire, je mets quand même les accents français :
à à â â é é è è ê ê ë ë î î ï ï ô ô ö ö ù ù û û ÿ ÿ À À Â Â É É È È Ê Ê Ë Ë Î Î Ï Ï Ô Ô Ö Ö Ù Ù Û Û ç ç Ç Ç Ÿ Ÿ æ æ Æ Æ