¿Qué es el audio?

Definición de audio

1.El audio se refiere a la frecuencia del habla humana, generalmente la banda de frecuencia de 300 Hz a 3400 Hz.

2. Se refiere a archivos que almacenan contenido sonoro.

3. En algunos aspectos puede referirse a la vibración como un filtro.

Audio es un término profesional. Todos los sonidos que los humanos pueden escuchar se denominan audio. Puede incluir ruido. Una vez grabado el sonido, ya sea habla, canto o instrumentos musicales, se puede grabar a través de ellos. tratar con el software de música digital. Conviértalo en un CD y todos los sonidos no cambiarán en este momento, porque el CD es originalmente un tipo de archivo de audio. Y el audio es sólo sonido almacenado en la computadora. Para discursos y música, si tiene una computadora con la tarjeta de audio correspondiente, lo que comúnmente llamamos tarjeta de sonido, podemos grabar todos los sonidos. Las características acústicas del sonido y el tono del sonido se pueden almacenar en el disco duro de la computadora. archivo de disco. Por el contrario, también podemos reproducir los archivos de audio almacenados a través de un determinado programa de audio para restaurar los sonidos grabados previamente.

Interpretación de las propiedades del audio

Todo el mundo admite que estamos en una era digital y muchas personas trabajan incansablemente para lograr una excelente calidad de sonido. Con la llegada de la era digital, todo el mundo admite que el audio digital es superior a las señales analógicas. ¿Qué es una señal analógica? De hecho, cualquier sonido que podamos escuchar transmitido a través de cables de audio o micrófonos es una serie de señales analógicas. Las señales analógicas son lo que podemos escuchar. Las señales digitales utilizan una serie de tokens digitales para grabar sonidos, en lugar de utilizar medios físicos para preservar las señales. (Grabar con una cinta normal es un método físico). Las señales digitales en realidad son inaudibles para nosotros.

De esta manera podemos comparar brevemente la diferencia entre la producción discográfica en la era analógica y la era digital: En la era analógica, la señal original se grababa físicamente en una cinta (completada en el estudio de grabación, por supuesto) y luego procesados, empalmados, modificados y finalmente grabados en cintas, LP y otros medios que puedan ser disfrutados por una amplia audiencia. Todos estos procesos se simulan y algunas señales se pierden en cada paso. Naturalmente, la señal queda muy por detrás en manos del oyente, y mucho menos en HI-FI. En la era digital, el primer paso es grabar la señal original en datos de audio digital y luego utilizar hardware o software para procesarla. Este proceso tiene ventajas incomparables sobre los métodos analógicos porque casi no causa pérdidas. Para la máquina, solo procesa números. Por supuesto, existe la posibilidad de perder códigos, pero mientras la operación sea razonable, esto no sucederá. Finalmente, cuando esta pila de señales digitales se transmite a un equipo de grabación digital como un CD, ¡la pérdida naturalmente será mucho menor!

Si prestamos atención a los CD que tenemos a nuestro alrededor, veremos que muchos CD tienen marcas como ADD, AAD, DDD, etc. Cada una de las tres letras representa si el método utilizado en los tres procesos de grabación, edición y producción final de la película es analógico (Analog) o digital (Digital). Por supuesto, A significa analógico y D significa digital. AAD explica que su grabación y edición se realiza en formato analógico, mientras que la grabación final se realiza en formato digital. La mayoría de estos discos convierten la música grabada en el pasado en CD sin ninguna modificación. ADD implica un proceso de modificación. Las interpretaciones de muchos maestros de música clásica o directores se grabaron en su mayoría en la era analógica. Los CD que escuchamos ahora fueron modificados y luego grabados en latas. Los discos de DDD deben ser grabaciones más modernas. Naturalmente, los CD deben terminar en D, mientras que las cintas pueden considerarse AAA, aunque no parece existir tal afirmación.

Entonces, el audio digital es una forma de preservar y transmitir señales de sonido. Su característica es que la señal no se pierde fácilmente. Y las señales analógicas son lo último que podemos escuchar. Sin embargo, la modificación de la señal analógica fue un desastre y la pérdida fue demasiado grande. Si Glenn Gould estuviera vivo hoy, se quedaría estupefacto si fuera una persona tan excéntrica. El audio digital se puede copiar 100 veces sin pérdida. Si no me cree, intente COPIAR un archivo WAVE.

El paso más crítico en la grabación digital es convertir señales analógicas en señales digitales. En lo que respecta a las computadoras, las señales de sonido analógicas se graban en archivos Wave. La grabadora de voz que viene con Windows también puede hacer esto, pero sus funciones son muy limitadas y no pueden satisfacer nuestras necesidades, por lo que utilizamos otro software de audio profesional, como. como Sound Forge et al. El archivo grabado es un archivo Wave. Hay dos indicadores principales para describir un archivo Wave, uno es la precisión del muestreo y el otro es la velocidad de bits.

Estos son dos conceptos muy importantes en la producción de audio digital. Veámoslos a continuación.

¿Qué es la precisión del muestreo? Debido a que Wave es una señal digital, utiliza un montón de números para describir la señal analógica original, por lo que necesita analizar la señal analógica original. Sabemos que todos los sonidos tienen sus propias formas de onda y la señal digital se basa en la señal analógica original. La forma de onda de la señal se realiza de vez en cuando y a cada punto se le asigna un valor numérico. Esto es "muestreo". Luego, al conectar todos los "puntos", se puede describir la señal analógica. Los puntos tomados dentro de un cierto período de tiempo son Cuantos más puntos haya, más precisa será la forma de onda descrita. Esta escala se llama "precisión de muestreo". Nuestra precisión de muestreo más utilizada es 44,1 kHz/s. Significa 44100 muestras por segundo. La razón por la que se utiliza este valor es porque después de repetidos experimentos, las personas descubrieron que esta precisión de muestreo es la más adecuada. Si es inferior a este valor, habrá pérdidas más obvias. Por encima de este valor, el oído humano ya resulta difícil de distinguir y aumenta el espacio que ocupa el audio digital. Generalmente, para lograr "extremadamente preciso", también utilizaremos una precisión de muestreo de 48k o incluso 96k. De hecho, la diferencia entre la precisión de muestreo de 96k y la precisión de muestreo de 44,1k nunca será tan grande como la de 44,1k y 22k. utilizar El estándar de muestreo de CD es 44,1k. Actualmente, 44,1k sigue siendo el estándar más popular. Algunas personas creen que 96k será la tendencia en la industria discográfica. Aumentar la precisión del muestreo debería ser algo bueno, pero a veces también me pregunto: ¿podemos realmente escuchar la diferencia entre la música producida con una precisión de muestreo de 96k y la música producida con una precisión de muestreo de 44,1k? ¿Pueden los hablantes en los hogares de la gente común revelar sus diferencias?

La velocidad de bits es un término que todo el mundo escucha con frecuencia. La grabación digital generalmente utiliza 16 bits, 20 bits y 24 bits para producir música. Sabemos que los sonidos pueden ser suaves o fuertes, y el factor físico que afecta los sonidos suaves es la amplitud. Como grabación digital, debe poder representar con precisión el sonido suave de la música, por lo que debemos tener una descripción precisa de la amplitud de la música. la forma de onda. Esto es lo que son los "bits". Una unidad, 16 bits, significa que la amplitud de la forma de onda se divide en 216 o 65536 niveles según el sonido suave de la señal analógica. que se puede representar con números. Al igual que la precisión del muestreo, cuanto mayor sea la velocidad de bits, más detallados se podrán reflejar los suaves cambios de sonido de la música. 20 bits pueden generar 1048576 niveles y no hay problema en expresar música muy dinámica como la sinfonía. Acabo de mencionar el término "dinámica". En realidad, se refiere al contraste entre lo más alto y lo más ligero de una pieza musical. También hablamos a menudo de "rango dinámico". La unidad es dB, y el rango dinámico es el mismo. la que usamos al grabar está estrechamente relacionada. Si usamos una velocidad de bits muy baja, entonces solo tenemos unos pocos niveles para describir la fuerza del sonido. Por supuesto, no podremos escuchar un gran contraste. entre fuerza y ​​debilidad. La relación entre el rango dinámico y la velocidad de bits es: por cada aumento de 1 bit en la velocidad de bits, el rango dinámico aumenta en 6 dB. Entonces, si usamos grabación de 1 bit, entonces nuestro rango dinámico es de solo 6 dB y es imposible escuchar esa música. A 16 bits, el rango dinámico es de 96 dB. Esto puede satisfacer las necesidades generales. A 20 bits, el rango dinámico es de 120 dB, que puede manejar cualquier sinfonía con fuerte contraste, y es más que suficiente para expresar la fuerza de la música. Las grabadoras audiófilas también utilizan 24 bits, pero al igual que la precisión del muestreo, no cambiará significativamente con respecto a los 20 bits. En teoría, los 24 bits pueden alcanzar un rango dinámico de 144 dB, pero en la práctica es difícil de lograr. El dispositivo inevitablemente producirá ruido; al menos en esta etapa, es difícil que los 24 bits logren el efecto esperado.

Formatos de audio

Las siguientes son las características de los formatos de archivos de audio comunes.

Para reproducir o procesar archivos de audio en una computadora, es decir, los archivos de sonido deben convertirse de digitales a analógicos. Este proceso también consiste en el muestreo y la cuantificación del sonido más bajo que se puede escuchar. por el oído humano la frecuencia es de 20 Hz a la frecuencia más alta de 20 KHZ. requerido para cada muestra. Número de bits de cuantificación. El estándar para la digitalización de audio es 16 bits por muestra, relación señal-ruido de 96 dB, utilizando PCM de modulación de código de pulso lineal, y cada paso de cuantificación tiene la misma longitud.

Este estándar se utiliza en la producción de archivos de audio.

Formato CD: Tiansu

¿Cuál es el formato de audio con mejor calidad de sonido del mundo actualmente? Por supuesto que es un CD. Por tanto, cuando se trata de formatos de audio, el CD es, naturalmente, el pionero. En "Abrir tipo de archivo" de la mayoría de los programas de reproducción, puede ver el formato *.cda, que es la pista de audio del CD. El formato de CD estándar tiene una frecuencia de muestreo de 44,1 K, una velocidad de 88 K/segundo y 16 bits de cuantificación. Debido a que se puede decir que la pista del CD no tiene pérdidas, su sonido es básicamente fiel al sonido original, así que si es así. a Si eres un audiófilo, el CD es tu primera opción. Te hará sentir el sonido de la naturaleza. Los CD se pueden reproducir en reproductores de CD o mediante diversos programas de reproducción en computadoras. Un archivo de audio de CD es un archivo *.cda. Esto es solo información de índice y en realidad no contiene información de sonido. Por lo tanto, independientemente de la longitud del CD de música, el "archivo *.cda" que se ve en la computadora tiene una longitud de 44 bytes. . Nota: No puede copiar archivos *.cda en formato CD al disco duro para reproducirlos. Debe utilizar un software de captura de pistas de audio como EAC para convertir los archivos en formato CD a WAV. Este proceso de conversión solo se producirá si la calidad es buena. la unidad de CD es aceptable y los parámetros de EAC están configurados. Si se hace correctamente, se puede decir que es básicamente una captura de audio sin pérdidas. Se recomienda que todos utilicen este método.

WAV: Lossless

Es un formato de archivo de sonido desarrollado por Microsoft. Cumple con la especificación de archivo PIFFResource Interchange File Format y se utiliza para guardar recursos de información de audio de la plataforma WINDOWS. Es utilizado por la plataforma WINDOWS y soportado por sus aplicaciones. El formato "*.WAV" admite múltiples algoritmos de compresión, como MSADPCM y CCITT A LAW, y admite una variedad de bits de audio, frecuencias de muestreo y canales. El formato de archivo WAV estándar es el mismo que el formato de CD, con una frecuencia de muestreo de. 44,1K y una velocidad de 88K/segundo, 16 bits de cuantificación. Como puede ver, la calidad del archivo de sonido del formato WAV es casi la misma que la del CD. También es un formato de archivo de sonido muy popular en casi todo el audio. El software de edición "conoce" el formato WAV.

Por cierto, aquí tienes el formato AIFF (Audio Interchange File Format) desarrollado por Apple y el formato AU desarrollado para sistemas UNIX. Son muy similares a WAV y también se utilizan en la mayoría de software de edición de audio. Todos admiten estos formatos de música comunes.

MP3: Popular

El formato MP3 nació en Alemania en la década de 1980. El llamado MP3 se refiere a la parte de audio del estándar MPEG, que es la capa de audio MPEG. Está dividido en 3 capas según la diferencia en la calidad de compresión y el procesamiento de codificación, correspondientes a los tres tipos de archivos de sonido: "*.mp1"/"*.mp2"/"*.mp3". Lo que hay que recordar es que la compresión de archivos de audio MPEG es un tipo de compresión con pérdida. La codificación de audio MPEG3 tiene una alta tasa de compresión de 10:1 a 12:1, mientras que básicamente mantiene la parte de audio baja sin distorsión, pero sacrifica la calidad. archivo de sonido La calidad de la parte de audio de 12 KHz a 16 KHz se intercambia por el tamaño del archivo. Los archivos de música de la misma longitud se almacenan en formato *.mp3, que generalmente es solo 1/10 de los archivos *.wav, y la calidad del sonido. es inferior a los archivos de sonido en formato CD o WAV. Debido a su pequeño tamaño de archivo y buena calidad de sonido, no había ningún otro formato de audio que pudiera competir con él cuando salió, proporcionando así buenas condiciones para el desarrollo del formato *.mp3. Hasta ahora, este formato sigue siendo muy popular y su condición de formato de audio convencional es difícil de superar. Sin embargo, no hay forma de resolver el problema de los derechos de autor de la música MP3 porque el MP3 no tiene tecnología de protección de derechos de autor. Para decirlo sin rodeos, cualquiera puede usarlo.

Hay muchas frecuencias de muestreo para música comprimida en formato MP3. Puedes usar una frecuencia de muestreo de 64 Kbps o menos para ahorrar espacio, o puedes usar un estándar de 320 Kbps para lograr una calidad de sonido extremadamente alta. Usamos el codificador MP3 MusicMatch Jukebox 6.0 con Fraunhofer IIS Mpeg Lyaer3 (el mejor codificador actual) para codificar una canción de 3 minutos a 128 Kbps, lo que resultó en un archivo MP3 de 2,82 MB.

La tecnología CBR (frecuencia de muestreo fija) predeterminada puede muestrear una canción a una frecuencia fija, mientras que VBR (frecuencia de muestreo variable) puede aumentar la frecuencia de muestreo para obtener una mayor calidad de sonido cuando la música está "ocupada". No se podrá reproducir en algunos reproductores. Configuramos el nivel de VBR para que tenga básicamente la misma calidad de sonido que el archivo CBR anterior, y el archivo VBR MP3 generado es de 2,9 MB.

MIDI: el favorito de los compositores

Las personas que tocan música con frecuencia deberían escuchar el término MIDI (interfaz digital de instrumentos musicales). MIDI permite que los sintetizadores digitales y otros dispositivos intercambien datos. El formato de archivo MID se hereda de MIDI. Un archivo MID no es una pieza de sonido grabado, sino un conjunto de instrucciones que registra información de sonido y luego le indica a la tarjeta de sonido cómo reproducir la música. Un archivo MIDI de este tipo sólo utiliza entre 5 y 10 KB por cada minuto de música almacenado. Hoy en día, los archivos MID se utilizan principalmente para obras instrumentales originales, interpretaciones amateur de canciones populares, bandas sonoras de juegos y tarjetas de felicitación electrónicas, etc. *El efecto de la reproducción de archivos .mid depende completamente del nivel de la tarjeta de sonido. *El mayor uso del formato .mid es en el campo de la composición por ordenador. Los archivos *.mid se pueden escribir usando software de composición musical, o la música reproducida por un secuenciador externo se puede ingresar a la computadora a través del puerto MIDI de la tarjeta de sonido para crear archivos *.mid.

WMA: El formato más potente

WMA (Windows Media Audio) es un reproductor pesado de Microsoft. Tiene una sólida trayectoria y su calidad de sonido es mejor que el formato MP3 y mucho mejor. que el formato RA, es el mismo que el formato VQF desarrollado por la empresa japonesa YAMAHA. Consigue una tasa de compresión más alta que el MP3 al reducir el tráfico de datos pero manteniendo la calidad del sonido. La tasa de compresión de WMA generalmente puede alcanzar alrededor de 1:18. WMA La ventaja es que los proveedores de contenido pueden agregar protección anticopia a través de soluciones DRM (Administración de derechos digitales) como Windows Media Rights Manager 7. Esta tecnología de protección de derechos de autor incorporada puede limitar el tiempo de reproducción, la cantidad de reproducciones e incluso la máquina de reproducción, etc. Esta es una buena noticia para las compañías de música que tienen problemas con la piratería. Además, WMA también admite la tecnología de transmisión de audio (Stream). , adecuado para la reproducción en línea en Internet. Como pionero de Microsoft en aprovechar la música en línea, se puede decir que es tecnológicamente líder y tiene una gran popularidad. Lo que es más conveniente es que no requiere la instalación de reproductores adicionales como MP3. El sistema operativo Windows y el paquete integrado Windows Media Player le permiten reproducir música WMA directamente siempre que instale el sistema operativo Windows. La nueva versión de Windows Media Player 7.0 agrega la función de convertir directamente discos CD al formato de sonido WMA. Sistema operativo recién lanzado Windows XP, WMA es el formato de codificación predeterminado. Todo el mundo sabe lo que pasó con Netscape, y ahora el "lobo" vuelve. WMA es un formato que le permite ajustar la calidad del sonido durante la grabación. En el mismo formato, la calidad del sonido es comparable a la del CD y la tasa de compresión es mayor y se puede utilizar para transmisiones en red. Aunque ahora no es muy popular en Internet, cada vez más sitios lo reconocen y apoyan firmemente debido a la promoción a gran escala de Microsoft. En términos de música en línea, está cerca de * .mp3. radio, también se está volviendo más popular. Divide el mundo creado por Real. Por tanto, casi todos los formatos de audio sienten la presión del formato WMA.

RealAudio: Melodía fluida

RealAudio es principalmente adecuado para apreciar música en línea en Internet. La mayoría de los usuarios todavía utilizan módems de 56 Kbps o de velocidad inferior, por lo que la reproducción típica no es la mejor calidad de sonido. Algunos sitios de descarga le pedirán que elija el mejor archivo Real según la velocidad de su módem. Actualmente existen varios formatos de archivos reales: RA (RealAudio), RM (RealMedia, RealAudio G2), RMX (RealAudio Secured) y más.

La característica de estos formatos es que la calidad del sonido puede cambiar con diferentes anchos de banda de la red, lo que permite a los oyentes con un ancho de banda más rico obtener una mejor calidad de sonido y al mismo tiempo garantizar que la mayoría de las personas puedan escuchar un sonido fluido.

Con la reciente mejora general del ancho de banda de la red, Real Company está lanzando un formato con calidad de CD para transmisión por Internet. Si su software RealPlayer no puede soportar este formato, le recordará que descargue un paquete de actualización gratuito. Muchos sitios web de música, como por ejemplo, ofrecen versiones para escuchar canciones en formato Real. La última versión ahora es RealPlayer 9.0.

VQF: A nadie le importa

El otro formato de Yamaha es *.vqf. Su núcleo es conseguir un mayor ratio de compresión reduciendo el tráfico de datos pero manteniendo la calidad del sonido. También es muy avanzado técnicamente, pero debido a la mala publicidad, este formato es difícil de utilizar. *.vqf se puede reproducir con el reproductor Yamaha. Al mismo tiempo, Yamaha también proporciona software para convertir archivos *.wav en archivos *.vqf. La falta de carácter de este documento, combinada con su falta de publicidad, es ahora casi una sentencia de muerte.

OGG: Formato de audio de nueva generación

El formato ogg es completamente de código abierto, completamente gratuito y un nuevo formato comparable al mp3.

El futuro es prometedor

Los formatos más comunes soportados por MP3 hoy en día son MP3 y WMA. Dado que MP3 tiene compresión con pérdidas, se presta atención a la frecuencia de muestreo, que suele ser de 44,1 KHZ. Además, también está la velocidad de bits, es decir, el flujo de datos, que generalmente es de 8 a 320 KBPS. Al codificar MP3, verifique también si admite velocidad de bits variable (VBR). La mayoría de los reproductores MP3 ahora lo admiten, lo que puede reducir el tamaño del archivo efectivo. WMA es un formato de audio fuertemente promocionado por Microsoft, que es relativamente más pequeño que MP3.

Procesamiento de audio

1. Procesamiento digital de medios de audio

Con el desarrollo de la tecnología informática, especialmente el desarrollo de dispositivos de almacenamiento masivo y memorias de gran capacidad. PC Una vez implementado, es posible digitalizar medios de audio. El núcleo del procesamiento digital es el muestreo de información de audio. Al procesar las muestras recopiladas, se pueden lograr varios efectos. Este es el significado básico del procesamiento digital de medios de audio.

2. Procesamiento básico de medios de audio

El procesamiento digital de audio básico incluye los siguientes tipos:

Conversión entre diferentes frecuencias de muestreo, frecuencias y números de canales y conversión. . La transformación simplemente lo trata como otro formato, mientras que la conversión se produce mediante remuestreo, donde también se pueden emplear algoritmos de interpolación según sea necesario para compensar la distorsión.

Diversas transformaciones de los propios datos de audio, como aparición gradual, desaparición gradual, ajuste de volumen, etc.

Transformación mediante algoritmos de filtrado digital, como filtros de paso alto y paso bajo.

3. Procesamiento tridimensional de medios de audio

Durante mucho tiempo, los investigadores informáticos han subestimado el papel del sonido en el procesamiento de la información humana. A medida que la tecnología virtual continúa desarrollándose, la gente ya no se contenta con sonidos monótonos y planos, sino que busca cada vez más efectos de sonido tridimensionales con sensación de espacio. El canal auditivo puede trabajar con el canal visual al mismo tiempo, por lo que el procesamiento tridimensional del sonido no solo puede expresar la información espacial del sonido, sino que también se combina con la información visual multicanal para crear un espacio virtual extremadamente realista. , que será un factor importante en los futuros sistemas multimedia. Extremadamente importante. Esta es también una medida importante en el manejo de los medios.

La teoría más básica de la percepción humana sobre la ubicación de una fuente de sonido es la teoría dúplex, que se basa en dos factores: la diferencia de tiempo de llegada del sonido entre los dos oídos y la diferencia de intensidad del sonido entre los dos oídos. La diferencia de tiempo se debe a la distancia. Cuando el sonido viene de frente, la distancia es igual, por lo que no hay diferencia de tiempo. Sin embargo, si es tres grados a la derecha, el tiempo que tardará en llegar al oído derecho será. unos 30 microsegundos menos que el oído izquierdo. Y esto es. Treinta microsegundos nos permiten identificar la ubicación de la fuente del sonido. La diferencia de intensidad es causada por la atenuación de la señal. La atenuación de la señal se produce naturalmente debido a la distancia, o es bloqueada por la cabeza de la persona, lo que atenúa el sonido, lo que resulta en una diferencia de intensidad, que es escuchada por el oído. cerca de la fuente del sonido. La intensidad del sonido es mayor que en el otro oído.

Basado en la teoría dúplex, de manera similar, siempre que se mezcle un audio de dos canales ordinario entre los dos canales, se puede hacer que el sonido de dos canales ordinario suene como un campo sonoro tridimensional. Efecto. Esto implica los dos conceptos siguientes sobre el campo sonoro: el ancho y la profundidad del campo sonoro.

El ancho del campo sonoro se logra utilizando el principio de diferencia de tiempo. Dado que ahora se está ampliando el audio estéreo normal, la posición de la fuente de sonido siempre permanece en el medio del campo sonoro, lo que simplifica nuestra tarea. trabajar. Todo lo que hay que procesar es mezclar los sonidos de los dos canales entre sí después de un retardo y una reducción de intensidad adecuados. Dado que dicha expansión tiene limitaciones, es decir, el retraso no puede ser demasiado largo, de lo contrario se convertirá en un eco.

La profundidad del campo sonoro se consigue mediante el principio de diferencia de intensidad, y su forma específica de expresión es el eco. Cuanto más profundo sea el campo sonoro, mayor será el retardo del eco. Por lo tanto, se deben proporcionar al menos tres parámetros en la configuración del eco: la tasa de atenuación del eco, la profundidad del eco y el retraso entre ecos. También debería haber una opción para establecer cuánta profundidad de sonido se mezcla el otro canal.