Por qué el software de compresión puede comprimir archivos en tamaños más pequeños
La información procesada por la computadora se expresa en forma de números binarios, por lo que el software de compresión marca la misma cadena de caracteres en la información binaria con caracteres especiales para lograr el propósito de la compresión. Para ayudarle a comprender la compresión de archivos, imagine en su mente una imagen de un cielo azul y nubes blancas. Para miles de píxeles azules que se repiten monótonamente, en lugar de definir una larga cadena de colores uno por uno, "azul, azul, azul...", es mejor decirle a la computadora: "Empiece desde esta posición y almacene 1117 colores azules. " "Like a dot" es simple y puede ahorrar mucho espacio de almacenamiento. Este es un ejemplo muy simple de compresión de imágenes. De hecho, todos los archivos de computadora se almacenan en última instancia en forma de "1" y "0", como puntos azules. Siempre que se utilicen fórmulas de cálculo matemático razonables, el tamaño del archivo se puede comprimir en gran medida para lograr una densidad "sin pérdida de datos". " efecto. En términos generales, la compresión se puede dividir en dos tipos: compresión con pérdida y sin pérdida. Si la pérdida de datos individuales no tiene mucho impacto, es una buena idea ignorarlos. Esto es compresión con pérdida. La compresión con pérdida se utiliza ampliamente en archivos de animación, sonido e imágenes. Los representantes típicos son el formato de archivo de disco de vídeo MPEG, el formato de archivo de música MP3 y el formato de archivo de imagen JPG.
Principio de compresión
Muchas personas se sorprenden por la magia de la tecnología de compresión. Si un archivo se comprime a la mitad de su tamaño, ¿cómo se puede restaurar sin pérdidas?
Las primeras tecnologías de compresión se basaban en modelos estadísticos. No fue hasta principios de la década de 1980 que las nuevas tecnologías basadas en la compresión de diccionarios se popularizaron lentamente.
La compresión de datos incluye muchas tecnologías de software y hardware. Estas tecnologías son diferentes, pero la mayoría del software de compresión se basa en los algoritmos LZ77 y LZ88 y son modificados, y LZ77 es el origen de la compresión de diccionario. Todo el mundo sabe que un archivo de texto se compone de algunas palabras y debe haber repeticiones. Por ejemplo, la palabra "software de compresión" aparece a menudo aquí. El principio de compresión es hacer algo similar a un diccionario al principio del archivo. y poner " La palabra "software de compresión" se coloca en el "diccionario" y se asigna a la palabra un código que ocupa un número menor de bytes. La palabra "software de compresión" en el artículo se reemplaza con este código para lograr el propósito de compresión. Por supuesto, el funcionamiento real del software de compresión no es tan simple y también utiliza algunos métodos de cálculo que le causarán dolor de cabeza. No entraré en detalles aquí. Algunas personas pueden preguntar: si la tecnología de diccionario se puede utilizar para archivos de texto, ¿qué pasa con otros archivos? No hay necesidad de preocuparse por esto, porque para el software de compresión, la palabra "compresión de datos" en un archivo es lo mismo que "@#¥%^". La clave está en la cantidad de códigos redundantes (partes repetidas).
Conocimientos de compresión
Según los métodos de compresión: existen las llamadas "compresión transparente" y "compresión empaquetada".
La "compresión transparente" generalmente apunta a archivos .exe y .com y los comprime directamente. Si tiene éxito, el tamaño del archivo será menor, las funciones seguirán siendo las mismas y la velocidad de ejecución puede ser más rápida. Sin embargo, el rango objetivo de este método de compresión es muy estrecho. Si la compresión falla, el archivo también quedará inutilizable. Por lo tanto, este tipo de programa siempre recomienda encarecidamente a los usuarios que realicen una copia de seguridad de los archivos antes de comprimirlos.
La "compresión de paquetes" es el método de compresión utilizado por el software de compresión que se menciona a menudo en la actualidad. Comprime uno o más archivos en un solo archivo: un paquete comprimido. Para utilizar el archivo comprimido, primero debes descomprimirlo y restaurarlo. Se caracteriza por su bajo riesgo y es adecuado para reducir el espacio ocupado por archivos que se utilizan con poca frecuencia y transferir datos. Por supuesto, según el algoritmo de compresión, también podemos dividir la compresión en muchos tipos.
Generalmente cuando hablamos de compresión, mencionaremos muchos términos relacionados. A continuación explicaremos algunos términos comunes.
Formato de compresión: se utilizan diferentes métodos de codificación de compresión al comprimir archivos, y las estructuras de archivos generadas por la compresión son diferentes. Esta estructura de archivos comprimidos se denomina formato de compresión.
Relación de compresión: la relación entre el espacio en disco ocupado por el archivo comprimido y el archivo original se denomina relación de compresión. Entre los formatos de compresión más utilizados, el formato RAR tiene una relación de compresión más alta y el formato ZIP tiene una relación de compresión más baja. Sin embargo, las operaciones con archivos en formato ZIP son más rápidas.
Descompresión: Restaura archivos comprimidos a su formato de archivo original, también conocido como liberación y expansión.
Paquete comprimido: Generalmente, los archivos en un formato de compresión común se denominan paquetes comprimidos, como los archivos comprimidos en formato ZIP. Este tipo de archivo puede administrar los archivos comprimidos en el paquete bajo la administración de la herramienta de compresión, como verlos, eliminarlos, agregarlos, etc.
Empaquetado: comprimir archivos en un archivo de paquete comprimido en un formato de compresión común se llama empaquetado, que también se refiere a agregar compresión de archivos a un paquete comprimido.
Compresión multivolumen: dividir el paquete de archivos comprimidos en varios archivos comprimidos se denomina compresión multivolumen. Generalmente se utiliza para almacenar archivos comprimidos en varios disquetes o para facilitar la transmisión en línea.
Archivos autoextraíbles: comprima archivos para generar archivos ejecutables y luego descomprima y restaure sus propios archivos fuente ejecutando los archivos comprimidos sin la ayuda de herramientas de compresión.
Formatos de archivos comprimidos
Actualmente hay una variedad de formatos de archivos comprimidos populares. ¡Echemos un vistazo a cuáles son!
ZIP: actualmente el formato de archivo comprimido más popular (en Internet, los archivos ZIP han logrado una victoria absoluta. En las operaciones diarias, además del software de compresión especializado, muchos programas de gestión de archivos, como Windows Commander, etc. también admite formato ZIP). Podemos usar WinZip para descomprimir y liberar archivos ZIP, y también podemos usarlo para procesar archivos comprimidos en varios formatos como ARJ, ARC, CAB, LZH, etc., lo que facilita enormemente las operaciones del usuario.
RAR: Es un formato de compresión de archivos rápido y eficiente, pero no es compatible con la mayoría de los programas de compresión de archivos. WinRAR es la mejor herramienta para procesar archivos en formato RAR en Windows.
ARJ: un formato de archivo comprimido por el otrora popular software de compresión ARJ en DOS. Tiene las ventajas de funciones potentes y una alta tasa de compresión. En la era actual de Windows, ha perdido su antigua gloria.
CAB: Es un formato de archivo comprimido especial recién agregado a Windows 98. Se utiliza principalmente para comprimir archivos en los discos de instalación de software relevantes. Se caracteriza por una tasa de compresión muy alta (probablemente la más alta actualmente). ), pero una vez comprimido, no se pueden realizar adiciones, eliminaciones, reemplazos, etc., lo que significa que su paquete comprimido tiene un atributo de "solo lectura". También podemos usar WinZip para operar paquetes comprimidos CAB. _: Método de archivo comprimido utilizado en discos de instalación de software, como *.ex_, *.dl_, *.d3_, etc. Generalmente son descomprimidos directamente por el sistema y la instalación se completa sin que el usuario tenga que preocuparse. Por supuesto, también podemos usar el comando EXPAND de DOS para liberar el archivo *.?_.
UU/UUE: método de codificación de caracteres chinos. Originalmente eran un método de codificación utilizado en sistemas Unix y luego se reescribieron en DOS. Al enviar correos electrónicos chinos, solo necesitamos usar este método para codificar por adelantado. Después de eso, puede pasar con éxito al servidor de correo que solo puede manejar codificación de 7 bits, resolviendo así el problema de la transmisión de caracteres chinos.
ACE: Un nuevo programa de compresión con un alto ratio de compresión.
Además, los archivos en formatos de audio, vídeo e imagen como MP3, MPEG y JPG también utilizan tecnología de compresión. En teoría, también deberían considerarse archivos comprimidos, pero los métodos de compresión que utilizan sí lo son. No es lo mismo, aquí hay una breve introducción:
JPEG: el nombre completo de JPEG es Joint Photographic Experts Group, que es un comité dedicado a la formulación de estándares de compresión de imágenes fijas bajo la Organización Internacional de Estándares (ISO). Formuló el primer conjunto de estándares nacionales de compresión de imágenes fijas: ISO 10918-1, comúnmente conocido como JPEG. Debido a la excelente calidad de JPEG, ha logrado un gran éxito en tan solo unos años. Actualmente, el 80% de las imágenes del sitio web utilizan el estándar de compresión JPEG.
JPEG 2000: El nombre oficial es "ISO 15444", que también es desarrollado por la organización JPEG. La mayor diferencia entre JPEG 2000 y JPEG tradicional es que abandona el método de codificación de bloques basado en la transformada de coseno discreta utilizada en JPEG y, en su lugar, utiliza un método de codificación de análisis múltiple basado en la transformada wavelet. Su tasa de compresión es aproximadamente un 30% más alta que JPEG y admite compresión con y sin pérdida. La compresión sin pérdida es muy útil para guardar algunas imágenes importantes.
MP3: Todo el mundo debería saber esto. El nombre completo de MP3 es MPEG 1 Layer 3. Es un esquema de codificación de compresión de sonido de alto rendimiento que puede crear archivos de música de "volumen" ultrapequeños. /10 a 1/12 de los datos de audio originales. Pero para el oído humano el efecto no es muy diferente. Casi ha ocupado el campo de la música por ordenador desde su nacimiento. Gracias a la aparición del MP3, una canción que antes tardaba media hora en descargarse de Internet ahora se puede "terminar" en sólo unos minutos en formato MP3.
MPEG: MPEG es la abreviatura de Moving Pictures Experts Group.
Actualmente se utilizan 4 versiones: MPEG-1, MPEG-2, MPEG-3 y MPEG-4.