¿Cuál es el principio de comprimir o descomprimir archivos?
Dado que la información procesada por la computadora se expresa en forma de números binarios, el software de compresión utiliza caracteres especiales para marcar las mismas cadenas en la información binaria para lograr el propósito de la compresión. Para ayudarle a comprender la compresión de archivos, imagine en su mente una imagen de un cielo azul y nubes blancas. Para miles de monótonos píxeles azules, en lugar de definir una larga lista de colores "azul, azul, azul...", es más conciso decirle a la computadora: "Almacena 1117 píxeles azules desde esta ubicación" y puede ahorrar mucho dinero. espacio de almacenamiento. Este es un ejemplo muy simple de compresión de imágenes. En última instancia, todos los archivos informáticos se almacenan en forma de "1" y "0". Al igual que los píxeles azules, mediante fórmulas de cálculo matemático razonables, el tamaño del archivo se puede comprimir en gran medida para lograr el efecto de "datos densos y sin pérdidas". En términos generales, la compresión se puede dividir en compresión con pérdida y compresión sin pérdida. Si la pérdida de datos individuales no tendrá mucho impacto, es una buena idea ignorarlos. Esto es compresión con pérdida. La compresión con pérdida se usa ampliamente en archivos de animación, sonido e imagen, los representantes típicos son mpeg, mp3 y jpg. Pero en la mayoría de los casos, los datos comprimidos deben ser precisos, por lo que la gente ha diseñado formatos de compresión sin pérdidas, como los comunes zip y rar. El software de compresión es, naturalmente, una herramienta que utiliza principios de compresión para comprimir datos. El archivo generado después de la compresión se llama archivo y su tamaño es solo una fracción o incluso menor. Por supuesto, el paquete comprimido ya tiene otro formato de archivo. Si desea utilizar los datos, primero debe utilizar un software de compresión para restaurarlos. Este proceso se llama descompresión. El software de compresión común incluye winzip, winrar, etc.
Los datos informáticos tienen dos formas de duplicación y zip los comprime.
Se trata de la repetición en forma de frases, es decir, repetición de más de tres bytes. Para esta duplicación, zip usa dos números: 1. La distancia entre la posición de repetición y la posición de compresión actual; 2. La longitud de la repetición para representar la repetición. Suponiendo que cada uno de estos dos números ocupa un byte, los datos se comprimen, lo cual es fácil de entender.
Un byte tiene 0-255 * * 256 valores posibles, y tres bytes tiene 256 * 256 * 256 * * más de 16 millones de situaciones posibles. Los valores posibles para frases más largas aumentan exponencialmente y la probabilidad de repetición parece extremadamente baja. De hecho, todo tipo de datos tienden a ser repetitivos. En un artículo aparecen repetidamente varios términos. En una novela, los nombres de personas y lugares aparecerán repetidamente en una imagen de fondo con un degradado hacia arriba y hacia abajo, los píxeles horizontales aparecerán repetidamente y las palabras clave gramaticales aparecerán repetidamente en el archivo fuente del programa (cuántas veces; copiamos y pegamos antes y después de escribir el programa), una gran cantidad de repeticiones de frases tienden a ocurrir en datos en formato no comprimido con unidades de decenas de kilobytes. Después de la compresión anterior, la tendencia a la repetición de frases se destruye por completo, por lo que la compresión de la segunda frase del resultado de la compresión generalmente no es efectiva.
El segundo tipo de repetición es la repetición de un solo byte. Solo hay 256 valores posibles para un byte, por lo que este tipo de repetición es inevitable. Entre ellos, algunos bytes pueden aparecer con más frecuencia y otros pueden aparecer con menos frecuencia, lo que tiende a distribuirse estadísticamente de manera desigual, lo cual es fácil de entender. Por ejemplo, en un archivo de texto ASCII, es posible que algunos símbolos se utilicen con poca frecuencia, mientras que las letras y los números se utilizan con más frecuencia y la frecuencia de uso de cada letra también es diferente. Se dice que la letra E tiene la mayor probabilidad de uso; muchas imágenes son oscuras o claras, y se usan más píxeles oscuros (o claros) (por cierto: el formato de imagen png es una compresión sin pérdidas y su algoritmo central es el algoritmo zip, que es el mismo que el formato zip. La principal diferencia del archivo es que, como formato de imagen, almacena información como el tamaño de la imagen y la cantidad de colores utilizados en el encabezado del archivo); La compresión de frases anterior también tiene esta tendencia: las repeticiones suelen aparecer cerca de la posición de compresión actual y la longitud de la repetición suele ser más corta (dentro de los 20 bytes). Esto permite la compresión: se recodifican 256 bytes de modo que los bytes que ocurren con más frecuencia usen una codificación más corta y los bytes que ocurren con menos frecuencia usen una codificación más larga. De esta forma, cuando hay más bytes cortos que largos, la longitud total del archivo se reduce y cuanto más desigual sea el uso de bytes, mayor será la relación de compresión.