Colección de citas famosas - Consulta de diccionarios - ¿Cuántos bytes ocupa un chino?

¿Cuántos bytes ocupa un chino?

Pregunta 1: ¿A cuántos bytes equivale un carácter chino? Generalmente, un binario de 8 bits que puede representar caracteres ingleses comunes se denomina byte.

Una letra inglesa (independientemente de mayúsculas y minúsculas) ocupa un byte y un carácter chino ocupa dos bytes.

Símbolos: los signos de puntuación en inglés son de 2 bytes, los signos de puntuación en chino son de 2 bytes.

Como unidad digital en las computadoras, una secuencia numérica binaria suele ser un número binario de 8 bits. Por ejemplo, el código ASCII es un byte y la conversión de esta unidad es:

1 kilobyte (KGB, kilobyte) = 1024 gigabytes.

1 GB = 1024 megas.

1 megabyte = 1024 kilobytes.

1 kilobyte = 1024 bytes.

1 byte) = 8 bits.

Pregunta 2: ¿Cuántos bytes se necesitan para un carácter chino? Dos bytes, una letra.

Pregunta 3: ¿A cuántos bytes equivale un carácter? Diferentes caracteres ocupan diferentes bytes.

Código ASCII:

Una letra inglesa (independientemente de mayúsculas y minúsculas) ocupa un byte y un carácter chino ocupa dos bytes. Como unidad de números en las computadoras, las secuencias de números binarios suelen ser números binarios de 8 bits convertidos a números decimales. El valor mínimo es 0 y el valor máximo es 255. Por ejemplo, el código ASCII es un byte.

Codificación UTF 8:

Un carácter inglés equivale a un byte y un carácter chino (incluido el chino tradicional) equivale a tres bytes.

Codificación Unicode:

Una palabra en inglés equivale a dos bytes y un carácter chino (incluido el chino tradicional) equivale a dos bytes.

Símbolos:

Los signos de puntuación en inglés ocupan un byte y los signos de puntuación en chino ocupan dos bytes. Por ejemplo, el punto británico "." ocupa 1 byte y el punto chino "." su tamaño es 2 bytes.

Pregunta 4: ¿Cuántos bytes hay en un carácter chino =? 2 letras inglesas = 2 Bytes

Estándar oficial:

1 carácter chino = 2 bytes 1 byte (byte) = 8 palabras = 8 números binarios

1 bit = 1 número binario

1B=8b

1KB=1024B

1MB=1024KB

1GB= 1024MB

Estándar del proveedor de hardware:

1GB=1000MB

1MB=1000KB

1KB=1000B

Generalmente, B se llama byte, B se llama bit, KB se llama kilobyte, MB se llama megabyte y GB se llama gigabyte

Pregunta 5: ¿Cuánto cuesta una palabra

Es correcto que una palabra en los Principios de organización informática equivale a cuatro bytes.

La "palabra" en los Principios de organización informática es la unidad de espacio de almacenamiento de los "caracteres" del chino. los caracteres son iguales, pero no son lo mismo en absoluto, y no importa

En el código ASCII, un carácter inglés ocupa un byte

Un int; el tipo ocupa 4 bytes, un byte es de 8 bits y un bit es 0 o 1;

En la codificación de caracteres chinos, un carácter chino ocupa 2 bytes y algunos caracteres raros ocuparán más bytes. /p >

Pregunta 6: ¿Los caracteres chinos UTF-8 tienen una longitud de tres bytes? Esta es una buena pregunta y se puede utilizar como prueba escrita. 1. Los estadounidenses primero realizan la codificación de caracteres en inglés. Este es el código ASCII más antiguo. Los 7 bits inferiores de un byte representan 128 caracteres en inglés y el 1 bit superior es uniformemente 2. Más tarde, los europeos descubrieron que 128 de Nima son suficientes. Por ejemplo, hay una nota en la letra francesa. ¿Cómo distinguir esto? Bueno, ponemos el bit alto 1, por lo que Europa generalmente usa una codificación de byte completo, que puede representar hasta 256 bits. A los europeos y estadounidenses les gusta ser sencillo, con menos caracteres y menos dígitos de codificación. ;3. Sin embargo, aunque el número de bits es pequeño, diferentes países y regiones utilizan diferentes caracteres para la codificación. Aunque los símbolos representados por 0-127 son los mismos, la interpretación de los párrafos 128-255 es completamente confusa. el binario es exactamente el mismo. Los caracteres representados también son completamente diferentes. Por ejemplo, 135 es completamente diferente en las codificaciones francesa, hebrea y rusa.

4. Lo que es aún más problemático es que después de que las computadoras de alta tecnología como Nima fueron introducidas en China, el pueblo chino descubrió que tenemos más de 654,38 millones de caracteres chinos, y los 256 caracteres chinos de ustedes, europeos y estadounidenses, no son suficientes. Por eso inventamos la codificación de caracteres chinos GB2312. Por lo general, se utilizan dos bytes para representar los caracteres chinos más utilizados y se pueden representar hasta 65536 caracteres chinos. Por lo tanto, no es difícil entender que algunos caracteres chinos se pueden encontrar en el Diccionario Xinhua, pero no se pueden mostrar en la computadora sin procesarlos. 5. ¿Cómo se puede unificar el mundo cuando cada uno codifica con su propio conjunto de caracteres? Los rusos enviaron un correo electrónico a los chinos. Las codificaciones del juego de caracteres en ambos lados eran diferentes, por lo que la visualización de Nima estaba llena de caracteres confusos. En aras de la unificación, la gente inventó Unicode, que incluye todos los símbolos del mundo y a cada símbolo se le asigna un código único. Unicode ahora puede contener más de 65.438+0 millones de símbolos, cada uno de los cuales tiene un código diferente. Ahora se puede unificar, varios idiomas pueden comunicarse entre sí y una página web puede mostrar los textos de varios países al mismo tiempo. 6. Sin embargo, aunque Unicode unifica la codificación binaria de caracteres en todo el mundo, no especifica cómo almacenarlos, querida. Las computadoras con arquitecturas x86 y AMD no pueden distinguir entre little endian y big endian, y mucho menos cómo la computadora puede distinguir si son unicode o acsii. Si Unicode estipula uniformemente que cada símbolo está representado por tres o cuatro bytes, entonces debe haber dos o tres bytes de cero antes de cada letra en inglés y el tamaño del archivo de texto será dos o tres veces mayor, lo cual es un gran problema. para el almacenamiento. Qué desperdicio. Esto tiene una consecuencia: Unicode tiene múltiples métodos de almacenamiento. 7. Con el auge de Internet, para mostrar varios caracteres en las páginas web, deben estar unificados, querida. Utf-8 es una de las implementaciones más importantes de Unicode. También hay utf-16, utf-32, etc. UTF-8 no es una codificación de longitud fija, sino un método de codificación de longitud variable. Puede utilizar de 1 a 4 bytes para representar un símbolo y la longitud del byte varía según los diferentes símbolos. Este es un diseño inteligente. Si el primer dígito de un byte es 0, entonces este byte es un solo carácter; si el primer número es 1, entonces el número de unos consecutivos significa cuántos bytes ocupa el carácter actual. 8. Tenga en cuenta que la codificación de caracteres de Unicode es diferente de la codificación de almacenamiento de UTF-8. Por ejemplo, la codificación Unicode de Yanzi es 4E25 y la codificación UTF 8 es E4B8A5, que se explicará en 7. La codificación UTF-8 no solo considera la codificación, sino también el almacenamiento. E4B8A5 inserta 4E25 según la codificación de identificación de almacenamiento 9.UTF-8 utiliza de 1 a 4 bytes para codificar cada carácter. 128 caracteres ASCII (rango Unicode de U+0000 a U+007F) que requieren solo un byte, con signos diacríticos para latín, griego, cirílico, armenio, hebreo, * * *, chino siríaco y maldivo (rango Unicode de U+0080 a U +07FF) requieren dos bytes. Los caracteres de otros planos multilingües básicos (BMP) (CJK entra en esta categoría; tenga en cuenta) utilizan tres bytes, los caracteres de otros planos auxiliares Unicode utilizan una codificación de cuatro bytes. 10. Finalmente, para responder a su pregunta, en términos generales, ¿cuántos bytes ocupan los caracteres chinos en UTF-8? Generalmente son tres bytes. El método de codificación más común es 110xxxxx1...>;& gt

. Pregunta 7: ¿Cuántos bytes y dos bytes ocupa un carácter chino en la computadora?

Pregunta 8: ¿Un carácter equivale a cuántos bytes y un carácter chino equivale a cuántos caracteres? El segundo tiene razón.

Un carácter = 8 bytes, un carácter chino = 2 caracteres = 16 bytes.