Colección de citas famosas - Colección de versos - Los algoritmos de minería de reglas de asociación comunes incluyen

Los algoritmos de minería de reglas de asociación comunes incluyen

Los algoritmos típicos de minería de reglas de asociación incluyen el algoritmo a priori y el algoritmo de crecimiento de FP.

El algoritmo a priori escanea la base de datos de transacciones varias veces y cada vez utiliza conjuntos frecuentes candidatos para generar conjuntos frecuentes, mientras que FP-growth utiliza una estructura de árbol, sin generar conjuntos frecuentes candidatos, pero obtiene directamente conjuntos frecuentes; reduciendo en gran medida el escaneo. La cantidad de transacciones en la base de datos mejora así la eficiencia del algoritmo. Sin embargo, el algoritmo a priori tiene buena escalabilidad y puede usarse en computación paralela y otros campos. ?

El algoritmo a priori es un algoritmo básico en reglas de asociación. Es un algoritmo de minería de reglas de asociación propuesto por dos médicos, Rakesh Agrawal y Ramakrishnan

Srikant en 1994.

El propósito de las reglas de asociación es encontrar la relación entre los artículos en un conjunto de datos, también llamado análisis de la cesta de la compra

(Análisis de la cesta de la compra), porque "análisis de la cesta de la compra" "Análisis " expresa acertadamente un subconjunto de escenarios donde este algoritmo es aplicable.

Algoritmos de minería de big data:

1. Naive Bayes, súper simple, como hacer un trabajo de conteo. Si se cumple el supuesto de independencia condicional, NB convergerá más rápido que el modelo discriminante, por lo que solo necesitará una pequeña cantidad de datos de entrenamiento. Incluso si el supuesto de independencia condicional no se cumple, NB todavía se desempeña sorprendentemente bien en la práctica.

Regresión logística, LR tiene muchos métodos para regularizar el modelo. En comparación con el supuesto de independencia condicional de NB, LR no necesita considerar si las muestras están relacionadas.

A diferencia de los árboles de decisión y las máquinas de vectores de soporte, NB tiene una buena explicación de probabilidad y es fácil utilizar nuevos datos de entrenamiento para actualizar el modelo. Vale la pena usar LR si desea obtener información de probabilidad o desea actualizar y mejorar fácilmente el modelo cuando tenga más datos en el futuro.

3. Árbol de decisión, DT es fácil de entender y explicar. DT no es paramétrico, por lo que no necesita preocuparse por si los puntos salvajes (o valores atípicos) y los datos son linealmente separables. La principal desventaja de DT es que es fácil de sobreajustar. Aquí es donde se encuentran los algoritmos de aprendizaje conjunto, como los aleatorios. Se propusieron los bosques.

4. La máquina de vectores de soporte tiene una precisión de clasificación muy alta y una buena garantía teórica para el sobreajuste. Al seleccionar una función de núcleo adecuada, puede funcionar bien ante problemas en los que las características son linealmente inseparables. . SVM es muy popular en la clasificación de textos donde la dimensionalidad suele ser muy alta.

上篇: Poemas con medios de transporte antiguos 下篇: ¿Cómo se llama el pequeño Taohong en la entrevista privada de Kangxi?