Colección de citas famosas - Consulta de diccionarios - Trece técnicas de minería de datos comúnmente utilizadas

Trece técnicas de minería de datos comúnmente utilizadas

Trece técnicas de minería de datos comúnmente utilizadas

1. Frontier

La minería de datos consiste en extraer datos de una gran cantidad de datos incompletos, ruidosos y borrosos. el proceso de extraer información y conocimiento oculto en datos aleatorios que las personas no conocen de antemano pero que son potencialmente útiles. La tarea de la minería de datos es descubrir patrones a partir de conjuntos de datos. Hay muchos tipos de patrones que se pueden descubrir, que se pueden dividir en dos categorías según sus funciones: patrones predictivos y patrones descriptivos. Las aplicaciones a menudo se subdividen en las siguientes categorías según la función real del modelo: clasificación, valoración, predicción, análisis de correlación, secuencia, series de tiempo, descripción y visualización, etc.

La minería de datos involucra muchas áreas temáticas y tecnologías, y existen muchos métodos de clasificación. Según las tareas de minería, se puede dividir en descubrimiento de modelos de clasificación o predicción, resumen de datos, agrupamiento, descubrimiento de reglas de asociación, descubrimiento de patrones de secuencia, descubrimiento de modelos de dependencia o dependencia, descubrimiento de anomalías y tendencias, etc.; Bases de datos relacionales, bases de datos orientadas a objetos, bases de datos espaciales, bases de datos temporales, fuentes de datos de texto, bases de datos multimedia, bases de datos heterogéneas, bases de datos patrimoniales y World Wide Web, se pueden dividir a grandes rasgos en: métodos de aprendizaje automático y métodos estadísticos; , método de red neuronal y métodos de base de datos. En el aprendizaje automático se puede subdividir en: métodos de aprendizaje inductivo (árboles de decisión, inducción de reglas, etc.), aprendizaje basado en ejemplos, algoritmos genéticos, etc. Los métodos estadísticos se pueden subdividir en: análisis de regresión (regresión múltiple, autorregresión, etc.), análisis discriminante (discriminante bayesiano, discriminante de Fisher, discriminante no paramétrico, etc.), análisis de conglomerados (agrupación de sistemas, agrupación dinámica, etc.), etc. .), análisis exploratorio (análisis de componentes principales, análisis de correlación, etc.), etc. Los métodos de redes neuronales se pueden subdividir en: redes neuronales directas (algoritmo BP, etc.), redes neuronales autoorganizadas (mapeo de características autoorganizadas, aprendizaje competitivo, etc.), etc. Los métodos de bases de datos son principalmente análisis de datos multidimensionales o métodos OLAP, y también existen métodos de inducción orientados a atributos, etc.

2. Breve descripción de la tecnología de minería de datos

Existen muchos tipos de tecnología de minería de datos y existen diferentes métodos de clasificación según las diferentes clasificaciones. Lo siguiente se centra en algunas técnicas comúnmente utilizadas en la minería de datos: técnicas estadísticas, reglas de asociación, análisis histórico, algoritmos genéticos, detección de agregación, análisis de conexiones, árboles de decisión, redes neuronales, conjuntos aproximados, conjuntos difusos, análisis de regresión, análisis diferencial, Descripción del concepto y otras trece técnicas de minería de datos comúnmente utilizadas.

1. Tecnología estadística

La minería de datos involucra muchos campos y tecnologías científicas, como la tecnología estadística. La idea principal de utilizar tecnología estadística para extraer conjuntos de datos es que los métodos estadísticos asumen una distribución o modelo de probabilidad (como una distribución normal) para un conjunto de datos determinado y luego utilizan los métodos correspondientes para extraer de acuerdo con el modelo.

2. Reglas de asociación

La asociación de datos es un tipo importante de conocimiento detectable que existe en la base de datos. Si existe cierta regularidad en los valores de dos o más variables, se llama correlación. Las asociaciones se pueden dividir en asociaciones simples, asociaciones temporales y asociaciones causales. El propósito del análisis de correlación es encontrar la red de correlación oculta en la base de datos. A veces, la función de correlación de los datos en la base de datos no se conoce, e incluso si se conoce, es incierta, por lo que las reglas generadas por el análisis de correlación tienen credibilidad.

3. Análisis histórico de MBR (razonamiento basado en memoria)

Primero encuentre situaciones similares basadas en conocimiento empírico y luego aplique la información de estas situaciones al ejemplo actual. Ésta es la esencia del MBR (Razonamiento basado en memoria). MBR primero busca vecinos que sean similares al nuevo registro y luego los utiliza para clasificar y valorar los nuevos datos. Hay tres problemas principales al usar MBR: encontrar datos históricos deterministas; decidir la forma más eficiente de representar datos históricos y decidir la función de distancia, la función conjunta y el número de vecinos;

4. Algoritmos Genéticos GA (Algoritmos Genéticos)

Una tecnología de optimización basada en la teoría evolutiva y que utiliza métodos de diseño como la combinación genética, la variación genética y la selección natural. La idea principal es: de acuerdo con el principio de supervivencia del más apto, formar un nuevo grupo compuesto por las reglas más adecuadas del grupo actual y los descendientes de estas reglas. Normalmente, la idoneidad de una regla se evalúa mediante su precisión de clasificación en el conjunto de muestras de entrenamiento.

5. Detección de clusters

El proceso de agrupar una colección de objetos físicos o abstractos en múltiples clases compuestas por objetos similares se llama clustering. Un grupo generado por agrupación es una colección de objetos de datos que son similares entre sí en el mismo grupo y diferentes de los objetos de otros grupos. El grado de disimilitud se calcula en función del valor del atributo del objeto descrito, y la distancia es un método de medición comúnmente utilizado.

6. Análisis de enlaces

Análisis de enlaces, su teoría básica es la teoría de grafos. La idea de la teoría de grafos es encontrar un algoritmo que pueda obtener buenos resultados pero no resultados perfectos, en lugar de encontrar un algoritmo que tenga una solución perfecta. El análisis de conexión utiliza la idea de que si son factibles resultados imperfectos, entonces dicho análisis es un buen análisis. Mediante el análisis de conexión, se pueden analizar algunos patrones a partir del comportamiento de algunos usuarios y, al mismo tiempo, los conceptos generados se pueden aplicar a un grupo de usuarios más amplio.

7. Árbol de decisión

El árbol de decisión proporciona una manera de mostrar reglas como qué valor se obtendrá y bajo qué condiciones.

8. Red neuronal

Estructuralmente, una red neuronal se puede dividir en capa de entrada, capa de salida y capa oculta. Cada nodo en la capa de entrada corresponde a una variable predictora. Los nodos de la capa de salida corresponden a las variables de destino y puede haber varios nodos. Entre la capa de entrada y la capa de salida está la capa oculta (invisible para los usuarios de la red neuronal). La cantidad de capas ocultas y la cantidad de nodos en cada capa determinan la complejidad de la red neuronal.

Además de los nodos de la capa de entrada, cada nodo de la red neuronal está conectado a muchos nodos delante de él (llamados nodos de entrada de este nodo). Cada conexión corresponde a un peso Wxy. y el valor del nodo se obtiene tomando la suma de los productos de los valores de todos sus nodos de entrada y los pesos de conexión correspondientes como entrada de una función. A esta función la llamamos función de actividad o función de compresión.

9. Conjunto aproximado

La teoría de conjuntos aproximados se basa en el establecimiento de clases de equivalencia dentro de los datos de entrenamiento dados. Todas las muestras de datos que forman una clase de equivalencia son indiscriminadas, es decir, estas muestras son equivalentes para los atributos que describen los datos. Dados los datos del mundo real, a menudo hay clases que no se pueden distinguir por los atributos disponibles. Se utilizan conjuntos aproximados para aproximar o definir aproximadamente esta clase.

10. Conjuntos difusos

La teoría de conjuntos difusos introduce la lógica difusa en los sistemas de clasificación de minería de datos, permitiendo la definición de valores o límites de dominio "difusos". La lógica difusa utiliza valores de verdad entre 0,0 y 1,0 para representar el grado en que un valor particular es un miembro determinado, en lugar de límites exactos para clases o conjuntos. La lógica difusa proporciona la posibilidad de procesar a un alto nivel de abstracción.

11. Análisis de regresión

El análisis de regresión se divide en regresión lineal, regresión múltiple y regresión no lineal. En la regresión lineal, los datos se modelan con una línea recta, mientras que la regresión múltiple es una extensión de la regresión lineal que involucra múltiples variables predictivas. La regresión no lineal consiste en agregar términos polinomiales al modelo lineal básico para formar un modelo no lineal.

12. Análisis diferencial

El propósito del análisis diferencial es tratar de encontrar anomalías en los datos, como datos de ruido, datos de fraude y otros datos anormales, para obtener información útil. información.

13. Descripción del concepto

La descripción del concepto consiste en describir la connotación de un determinado tipo de objeto y resumir las características relevantes de este tipo de objeto.

La descripción del concepto se divide en descripción característica y descripción diferencial. La primera describe las características únicas de un determinado tipo de objeto y la segunda describe las diferencias entre diferentes tipos de objetos. Generar una descripción característica de una clase solo involucra a todos los objetos de ese tipo. de objeto. de seguridad.

3. Conclusión

Debido a que la gente necesita urgentemente transformar los datos existentes en bases de datos y otras bases de información en conocimiento útil, la minería de datos se considera una disciplina emergente y muy importante. campo de investigación con perspectivas de aplicación amplias y desafiantes, y se ha aplicado a muchas disciplinas (como bases de datos, inteligencia artificial, estadísticas, almacén de datos, análisis y procesamiento en línea, sistemas expertos, visualización de datos, aprendizaje automático, recuperación de información, etc. Redes neuronales, reconocimiento de patrones, computadoras de alto rendimiento, etc.) los investigadores han recibido amplia atención. Como disciplina emergente, la minería de datos está formada por la intersección e integración de las disciplinas anteriores. Con el mayor desarrollo de la minería de datos, inevitablemente traerá mayores beneficios a los usuarios.