Colección de citas famosas - Colección de consignas - Distinguir entre caracteres chinos y caracteres occidentales

Distinguir entre caracteres chinos y caracteres occidentales

1 se puede lograr identificando la longitud de la codificación de caracteres.

Debido a que los caracteres ingleses solo ocupan un dígito, mientras que los caracteres chinos ocupan dos dígitos, pero en el estándar de codificación de caracteres internacional Unicode, todos los caracteres ocupan dos dígitos, por lo que el primer byte de todos los números en inglés en Unicode El valor es definitivamente 0x00. Siempre que se lean dos bytes, los caracteres chinos e ingleses se pueden juzgar si el primer carácter es 0x00.

Pero tenga en cuenta que Unicode se divide en codificación big-endian y codificación little-endian, y el orden de reconocimiento de caracteres es exactamente el opuesto. Por lo tanto, tenga en cuenta que si usa codificación little-endian, 0x00 estará al frente y Windows usa codificación little-endian. Además, en los archivos de texto, Unicode tiene un encabezado dom, así que tenga cuidado de no leer el encabezado del archivo.

2. Juzgue según el número convertido en cada byte.

Como todos sabemos, los caracteres occidentales se refieren principalmente a códigos ASCII, que están representados por un byte. Además, después de convertir este carácter en un número, el número es mayor que 0 y los caracteres chinos son dos bytes. Después de convertirse en un número, el primer byte debe ser menor que 0, para que pueda juzgar si cada byte es menor. que 0 después de convertirse en un número. Son caracteres chinos.

Datos ampliados

En Taiwán, Hong Kong y Macao se utiliza el juego de caracteres del chino tradicional. Sin embargo, el GB2312 anunciado en 1980 es para el conjunto de caracteres del chino simplificado y no es compatible con el chino tradicional. En estas áreas donde se utilizan juegos de caracteres tradicionales, han aparecido muchas codificaciones de juegos de caracteres propuestas por diferentes fabricantes. Estas codificaciones son incompatibles entre sí, lo que provoca dificultades en el intercambio de información.

En 1984, para unificar la codificación de los conjuntos de caracteres chinos tradicionales, los cinco principales fabricantes de Taiwán, Acer, STO, Allison, Zero-One y Volkswagen, formularon el esquema de codificación para los caracteres chinos tradicionales. . Por su origen, Big5 fue escrito en inglés y luego traducido a caracteres chinos en inglés, generalmente se llamaba Big5.

Big Five es un conjunto de caracteres chinos tradicionales, que incluye 13.053 caracteres chinos tradicionales, 808 signos de puntuación, letras griegas y símbolos especiales. La tabla de códigos Big Five está diseñada directamente para el almacenamiento y cada carácter está representado por dos bytes de almacenamiento.

El rango de 1 byte es 81h-feh, lo que evita conflictos con códigos ASCII. El segundo rango de bytes es 40H-7EH y A1h-feh. Debido a que el rango de codificación de caracteres de Big5 entra en conflicto con el rango de código de almacenamiento de caracteres GB2312, los caracteres de ambos conjuntos de caracteres no se pueden admitir en el mismo texto al mismo tiempo.