Colección de citas famosas - Consulta de diccionarios - ¿Cuáles son los principales desafíos de extraer grandes cantidades de datos en comparación con la extracción de pequeñas cantidades de datos?

¿Cuáles son los principales desafíos de extraer grandes cantidades de datos en comparación con la extracción de pequeñas cantidades de datos?

Los siguientes son algunos de los desafíos específicos que motivan la investigación en minería de datos.

Escalable Debido a los avances en las tecnologías de generación y recopilación de datos, los conjuntos de datos de varios gigabytes, varios terabytes e incluso varios petabytes son cada vez más comunes. Si un algoritmo de minería de datos va a manejar estos conjuntos de datos masivos, el algoritmo debe ser escalable. Muchos algoritmos de minería de datos utilizan estrategias de búsqueda especiales para manejar problemas de búsqueda exponencial. La ampliación también puede requerir la implementación de nuevas estructuras de datos para acceder a registros individuales de manera eficiente. Por ejemplo, es posible que se necesiten algoritmos sin memoria cuando los datos a procesar no caben en la memoria. La escalabilidad también se puede mejorar utilizando técnicas de muestreo o desarrollando algoritmos paralelos y distribuidos.

Alta dimensionalidad Hoy en día, es común encontrar conjuntos de datos con cientos o miles de atributos, en lugar de los pocos atributos que eran comunes hace décadas. En el campo de la bioinformática, los avances en la tecnología de microarrays han generado datos de expresión genética que involucran miles de características. Los conjuntos de datos con componentes temporales o espaciales también tienden a ser muy dimensionales. Por ejemplo, considere un conjunto de datos que contiene mediciones de temperatura en diferentes regiones. Si la temperatura se mide repetidamente durante un período de tiempo considerable, la dimensionalidad (número de características) aumenta proporcionalmente al número de mediciones. Las técnicas tradicionales de análisis de datos desarrolladas para datos de baja dimensión a menudo no manejan bien datos de alta dimensión. Además, para algunos algoritmos de análisis de datos, la complejidad computacional aumenta rápidamente a medida que aumenta la dimensionalidad (número de características).

Datos heterogéneos y datos complejos Normalmente, los métodos tradicionales de análisis de datos sólo tratan con conjuntos de datos que contienen el mismo tipo de atributos, ya sean continuos o categóricos. A medida que la minería de datos adquiere un papel cada vez mayor en los negocios, la ciencia, la medicina y otros campos, existe una necesidad creciente de técnicas que puedan manejar atributos heterogéneos. En los últimos años han surgido objetos de datos más complejos. Ejemplos de estos tipos de datos no tradicionales incluyen colecciones de páginas web que contienen texto semiestructurado e hipervínculos, datos de ADN con secuencias y estructuras tridimensionales, datos meteorológicos que contienen mediciones de series temporales (temperatura, presión atmosférica, etc.) en diferentes ubicaciones en datos de la superficie terrestre. Las técnicas desarrolladas para extraer objetos tan complejos deben considerar conexiones en los datos, como la autocorrelación temporal y espacial, la conectividad de gráficos y las conexiones padre-hijo entre elementos en texto semiestructurado y documentos XML.

Propiedad y distribución de los datos A veces, los datos que deben analizarse no se almacenan en un sitio o pertenecen a una unidad, sino que se distribuyen geográficamente entre recursos que pertenecen a múltiples organizaciones. Esto requiere el desarrollo de tecnología de minería de datos distribuida. Los principales desafíos que enfrentan los algoritmos de minería de datos distribuidos incluyen: (1) ¿Cómo reducir la cantidad de comunicación requerida para realizar cálculos distribuidos? (2) ¿Cómo unificar eficazmente los resultados de la minería de datos obtenidos de múltiples recursos? (3) ¿Cómo abordar los problemas de seguridad de los datos?

Análisis no tradicional Los métodos estadísticos tradicionales se basan en un modelo de prueba de hipótesis. En otras palabras, formule una hipótesis, diseñe un experimento para recopilar datos y luego analice los datos con respecto a la hipótesis. Sin embargo, este proceso requiere mucha mano de obra. Las tareas actuales de análisis de datos a menudo requieren la generación y evaluación de miles de hipótesis, por lo que el deseo de generar y evaluar hipótesis automáticamente ha llevado al desarrollo de varias técnicas de minería de datos. Además, los conjuntos de datos analizados mediante minería de datos no suelen ser el resultado de experimentos cuidadosamente diseñados y suelen representar muestras de datos oportunistas en lugar de muestras aleatorias. Además, estos conjuntos de datos a menudo implican tipos de datos y distribuciones de datos no tradicionales.

Generalmente, las tareas de minería de datos se dividen en las dos categorías siguientes:

l Tareas de predicción. El objetivo de estas tareas es predecir el valor de un atributo específico en función de los valores de otros atributos. Los atributos que se predicen generalmente se denominan variables objetivo o variables dependientes, mientras que los atributos utilizados para la predicción se denominan variables explicativas o variables independientes.

l Describe la tarea. Aquí, el objetivo es derivar patrones (correlaciones, tendencias, grupos, trayectorias y anomalías) que resumen las conexiones subyacentes en los datos. Las tareas de minería de datos descriptivas suelen ser de naturaleza exploratoria y a menudo requieren técnicas de posprocesamiento para verificar e interpretar los resultados.