Colección completa de detalles de archivos de texto
En particular, los archivos de texto se refieren a archivos almacenados en código ASCII (también llamado modo texto). Para ser más precisos, caracteres como el inglés y los números se almacenan en códigos ASCII, mientras que los caracteres chinos se almacenan en códigos internos. Los archivos de texto no pueden almacenar ninguna otra información excepto información de caracteres válidos (incluidos retornos de carro, avances de línea y otra información que puede representarse mediante caracteres ASCII).
Introducción básica Nombre chino: archivo de texto mbth: ¿texto? Archivo pinyin: Wé nB ě né né jià n extensión: txt,. doctor. ,.docx,. Introducción a wps, formatos, ASCII, MIME,. txt, Windows. archivos txt, almacenamiento de datos, comparación con archivos binarios, definición, acceso, ventajas y desventajas, Introducción Un archivo de texto es un archivo de computadora que consta de varias líneas de caracteres. Los archivos de texto existen en sistemas de archivos informáticos. Normalmente, el final de un archivo se indica colocando una bandera de fin de archivo después de la última línea del archivo de texto. Los archivos de texto se refieren al contenedor, mientras que el texto sin formato se refiere al contenido. Los archivos de texto pueden contener texto sin formato. En términos generales, los archivos de computadora se pueden dividir en dos categorías: archivos de texto y archivos binarios. Formato ASCII El estándar ASCII permite intercambiar libremente archivos de texto que contienen sólo caracteres ASCII entre Unix, Macintosh, Microsoft Windows, DOS y otros sistemas operativos, lo que es difícil de lograr con archivos en otros formatos. Sin embargo, los saltos de línea no son los mismos en estos sistemas operativos y los caracteres que no son ASCII se tratan de manera inconsistente. Archivo Los archivos de texto MIME son del tipo "texto/sin formato" en el estándar MIME y suelen ir acompañados de información de codificación. Antes de Mac OS X, cuando una bifurcación de recursos especificaba un archivo como "texto", Mac OS trataba el archivo como un archivo de texto. En Windows, cuando un archivo tiene extensión "txt", el sistema lo trata como un archivo de texto. Además, algunos archivos de texto utilizan otras extensiones para fines especiales. Por ejemplo, el código fuente de una computadora también es un archivo de texto y su sufijo se utiliza para indicar su lenguaje de programación. . TXT. txt es una extensión para archivos de texto que contienen una pequeña cantidad de información de formato. No existe una definición clara. El formato txt generalmente se refiere a aquellos formatos que pueden ser aceptados por terminales del sistema o editores de texto simples. Cualquier programa que pueda leer texto funcionará. txt, por lo que este tipo de archivo generalmente se considera universal y multiplataforma. En los archivos de texto en inglés, el juego de caracteres ASCII es el formato más común y, en muchos casos, también es el formato predeterminado. Para caracteres acentuados y otros caracteres que no sean ASCII, se debe seleccionar una codificación de caracteres. En muchos sistemas, la codificación de caracteres está determinada por la configuración regional de la computadora. Las codificaciones de caracteres comunes incluyen ISO 8859-1, que admite muchos idiomas europeos. Debido a que muchas codificaciones sólo pueden representar un número limitado de caracteres, a menudo se utilizan para representar sólo unos pocos idiomas. Unicode establece un estándar que intenta expresar todos los lenguajes conocidos. El conjunto de caracteres Unicode es muy grande e incluye la mayoría de los conjuntos de caracteres conocidos. Unicode tiene muchas codificaciones de caracteres, la más común es UTF-8, que es compatible con versiones anteriores. Los archivos de texto ASCII con el mismo contenido son exactamente iguales a los archivos de texto UTF-8. de. Los archivos txt de Windows, Microsoft MS-DOS y Windows usan el mismo formato de archivo de texto y ambos usan CR y LF como saltos de línea. Los códigos ASCII correspondientes a estos dos caracteres son 13 y 10 respectivamente. Normalmente, la última línea de texto no termina con un carácter de nueva línea (símbolo CR-LF) y muchos editores de texto, incluido el Bloc de notas, no agregan un carácter de nueva línea al final del archivo. La mayoría de los archivos de texto de Windows utilizan codificación ANSI, OEM o Unicode. La codificación ANSI a la que se refiere Windows suele ser la codificación ISO-8859 de 1 byte, pero para entornos como chino, japonés y coreano, se requiere un juego de caracteres de 2 bytes. Antes de hacer la transición a Unicode, Windows siempre usaba ANSI como codificación predeterminada del sistema. La codificación OEM, también conocida como página de códigos MS-DOS, fue definida por IBM para el sistema de visualización en modo texto de las primeras computadoras personales de IBM. En los programas MS-DOS de pantalla completa, se utilizan tanto caracteres gráficos como de dibujo lineal. Las nuevas versiones de Windows pueden utilizar codificaciones Unicode como UTF-16LE y UTF-8. Los archivos de texto se utilizan ampliamente para registrar información debido a su sencilla estructura de almacenamiento de datos. Evita algunos de los problemas encontrados con otros formatos de archivo. Además, cuando alguna información en un archivo de texto falla, suele ser más fácil recuperarse del error y continuar procesando el resto de la información. Una desventaja de los archivos de texto es que suelen tener baja entropía, es decir, pueden utilizar menos espacio de almacenamiento para grabar. En relación con los archivos binarios, el almacenamiento de la computadora se define físicamente como binario, por lo que la diferencia entre archivos de texto y archivos binarios no es física, sino lógica. Los dos son simplemente diferentes en el nivel de codificación. En pocas palabras, los archivos de texto son archivos basados en codificación de caracteres. Las codificaciones comunes incluyen codificación ASCII, codificación UNICODE, etc.
Los archivos binarios son archivos de codificación basados en valores. Puede especificar un valor de acuerdo con una aplicación específica (puede considerarse como una codificación personalizada). Como se puede ver en lo anterior, los archivos de texto tienen básicamente una codificación de longitud fija (también existen codificaciones de longitud no fija, como UTF-8). Según los caracteres, cada carácter se fija en una codificación específica. El código ASCII es un código de 8 bits y UNICODE generalmente ocupa 16 bits. Los archivos binarios pueden considerarse como codificación de longitud variable, porque es una codificación de valor y la cantidad de bits que representan un valor depende completamente de usted. La herramienta de acceso a texto abre un archivo, primero lee físicamente el flujo de bits binarios correspondiente al archivo, luego interpreta el flujo de acuerdo con el método de decodificación seleccionado y luego muestra los resultados de la interpretación. En términos generales, el método de decodificación que elija será en forma de código ASCII (un carácter de código ASCII tiene 8 bits). A continuación, interpretará este flujo de archivos de 8 bits a la vez. No importa qué archivo abra, el Bloc de notas funciona de acuerdo con la codificación de caracteres establecida (como el código ASCII), por lo que al abrir un archivo binario, inevitablemente aparecerán caracteres confusos y la decodificación no corresponde a la decodificación. Almacenar y leer archivos de texto es básicamente un proceso inverso. El acceso a archivos binarios es similar al de archivos de texto, excepto que el método de codificación/decodificación es diferente. Ventajas y desventajas Debido a que la diferencia entre archivos de texto y archivos binarios es solo la diferencia en la codificación, sus ventajas y desventajas son las ventajas y desventajas de la codificación. En términos generales, la codificación de archivos de texto se basa en caracteres de longitud fija y es fácil de decodificar; la codificación de archivos binarios es de longitud variable y, por lo tanto, flexible, tiene una mayor utilización de almacenamiento y es más difícil de decodificar (los diferentes formatos de archivos binarios tienen diferentes métodos de decodificación). ). En Windows, los archivos de texto no se almacenan necesariamente en código ASCII, porque el código ASCII sólo puede representar el logotipo 128. Abra un documento de texto y guárdelo como otra opción. Puedes elegir el formato de almacenamiento. En términos generales, el formato de codificación UTF-8 es más compatible. El lenguaje informático original utilizado en el binario no almacena compatibilidad.