La diferencia entre clasificación y agrupación y sus algoritmos comúnmente utilizados
Clasificación, para un clasificador, generalmente es necesario darle algunos ejemplos como "Esto cae en una determinada categoría". Idealmente, un clasificador "aprenderá" del conjunto de entrenamiento que se le proporciona, convirtiéndose así en capaz de clasificar datos desconocidos. Este proceso de proporcionar datos de entrenamiento a menudo se denomina aprendizaje supervisado.
Agrupar simplemente significa agrupar cosas similares. Al agrupar, no nos importa cuál sea una determinada categoría. Todo lo que necesitamos lograr es juntar cosas similares. Por lo tanto, un algoritmo de agrupación generalmente solo necesita saber cómo calcular similitudes, por lo que la agrupación generalmente no necesita utilizar datos de entrenamiento para el aprendizaje. Esto es aprendizaje no supervisado en el aprendizaje automático.
2. Algoritmos comunes de clasificación y agrupamiento
La llamada clasificación simplemente significa dividir el texto en categorías existentes según sus características o atributos. Por ejemplo, en PNL, la clasificación de textos que mencionamos a menudo es un problema de clasificación, y los métodos de clasificación de patrones generales se pueden utilizar en la investigación de clasificación de textos. Los algoritmos de clasificación comúnmente utilizados incluyen: clasificación de árbol de decisión, clasificador bayesiano nativo, clasificador basado en máquina de vectores de soporte (SVM), método de red neuronal, k-vecino más cercano (kNN), clasificación difusa, etc.
La clasificación, como método de aprendizaje supervisado, requiere que la información de cada categoría se conozca claramente de antemano, y se afirma que todos los elementos a clasificar tienen una categoría correspondiente. Pero en muchos casos, las condiciones anteriores no se pueden cumplir, especialmente cuando se procesan datos masivos. Si los datos cumplen con los requisitos del algoritmo de clasificación mediante preprocesamiento, el costo es muy alto. En este momento, se pueden considerar algoritmos de agrupación.
La agrupación en clústeres K-means es el algoritmo de agrupación en clústeres más típico (por supuesto, existen muchos otros algoritmos de agrupación, como el algoritmo K-MEDOIDS, el algoritmo CLARANS; el algoritmo BIRCH, el algoritmo CURE, el algoritmo Chameleon, etc., basados en Métodos de densidad: algoritmo DBSCAN, algoritmo óptico, algoritmo DENCLUE, etc. Métodos basados en cuadrículas: algoritmo STING, algoritmo CLIQUE, algoritmo basado en modelos WAVE-CLUSTER).