Colección de citas famosas - Frases motivadoras - ¿Cuáles son las diferencias entre los formatos de texto ANSI, Unicode, etc.?

¿Cuáles son las diferencias entre los formatos de texto ANSI, Unicode, etc.?

ANSI: en los primeros días, los códigos ASCII de computadora solo podían representar 256 símbolos (incluidos los símbolos de control). Este conjunto de caracteres representa suficientes letras en inglés. Entre ellos, el rango de codificación de los símbolos visibles en nuestro teclado es. de 32 a 126 (letras inglesas mayúsculas y minúsculas, números, símbolos ingleses, etc.). Pero no es suficiente expresar caracteres chinos, japoneses y coreanos. Hay más de 3000 caracteres de uso común en caracteres chinos.

Unicode: Consiste en utilizar un conjunto de caracteres unificado para representar los símbolos de todos los idiomas del mundo. Una codificación es verdaderamente única.

Existen varios métodos en Unicode:

UTF-16BE/LE: UTF-16 es el modo de codificación del modo Windows (Unicode en Windows generalmente se refiere a esta codificación), usando 2 bytes para representar cualquier carácter Nota: Los caracteres en inglés también ocupan 2 bytes (¿es anormal? Esta codificación puede representar 65536 caracteres. En cuanto a LE y BE, es un valor numérico almacenado en la memoria/disco). una codificación es 0x8182, ¿debería ser 0x81 o 0x82 en el disco? ¿O 0x82 0x81? La cuestión es si el bit alto se guarda primero o último. El primero es BE y el segundo es LE.

UTF-8: UTF-8 es un formato popular en las páginas web: se usa un byte para representar caracteres en inglés y 3 bytes para representar caracteres chinos. Para ser precisos, UTF-8 usa binario. Prefijo de codificación, si el bit binario más alto del primer byte de una determinada codificación UTF-8 es 0, entonces esta codificación ocupa 1 byte, si es 110, ocupa 2 bytes, si es 1110, ocupa 3 bytes.