Colección de citas famosas - Frases motivadoras - Sistema de recomendación (1): algoritmo de filtrado colaborativo basado en elementos

Sistema de recomendación (1): algoritmo de filtrado colaborativo basado en elementos

El algoritmo de filtrado colaborativo es el algoritmo de recomendación más clásico y utilizado. Su idea básica es recopilar las preferencias de los usuarios, encontrar usuarios o elementos similares y luego realizar cálculos y recomendaciones.

La idea central del algoritmo de filtrado colaborativo basado en elementos es recomendar a los usuarios elementos similares a elementos que les han gustado antes. Se puede dividir en dos pasos principales:

(1) Calcular la similitud entre elementos y establecer una matriz de similitud.

(2) Generar una lista de recomendaciones para los usuarios en función de la similitud de los elementos y el comportamiento histórico del usuario.

Hay muchas formas de definir similitud. Aquí hay una breve introducción a varias de ellas:

Entre ellas, el denominador es el número de usuarios a los que les gusta el elemento y el numerador. es el número de usuarios a los que les gusta tanto el artículo como el artículo. Por tanto, la fórmula anterior puede entenderse como el porcentaje de usuarios a los que les gusta el artículo.

Hay algún problema con la fórmula anterior. Si el artículo es popular, será grande, cercano a 1. Por lo tanto, esta fórmula dará como resultado que cualquier proyecto tenga una gran similitud con los proyectos populares. Para evitar recomendar artículos populares, puede utilizar la siguiente fórmula:

Esta fórmula penaliza el peso de los artículos, reduciendo así la probabilidad de que los artículos populares sean similares a muchos artículos.

Además, para reducir el impacto de los usuarios activos en los resultados, se considera el parámetro de frecuencia de usuario inversa IUF (nverse User Frequency) del logaritmo de la actividad de los usuarios, y se cree que la contribución La proporción de usuarios activos con respecto a la similitud de elementos debe ser menor que la de los usuarios inactivos.

Para facilitar el cálculo, es necesario normalizar aún más la matriz de similitud.

Representa la calificación del usuario sobre el artículo. Dentro del intervalo, cuanto más cerca esté de 1, mayor será la similitud.

Representando dos puntos en el espacio, la distancia euclidiana es:

Cuando es la distancia entre dos puntos en el plano, cuando representa similitud, se puede utilizar la siguiente conversión:

Cuanto menor es la distancia, mayor es la similitud.

Generalmente representa la cercanía de la relación entre dos variables de rango fijo, y el rango de valores es [-1, 1].

¿Dónde está la desviación estándar muestral de y?

Los datos de comportamiento del usuario se dividen aleatoriamente en M bloques de acuerdo con una distribución uniforme, un bloque se selecciona como conjunto de prueba y los bloques M-1 restantes se utilizan como conjunto de entrenamiento. Para evitar que el índice de evaluación sea el resultado de un sobreajuste, se realizaron * * m experimentos, cada vez utilizando un conjunto de pruebas diferente. Luego, se utiliza como índice de evaluación final el valor promedio de los indicadores de evaluación medidos en M experimentos.

Se recomiendan N elementos (indicados como) al usuario U, por lo que el conjunto de elementos que le gustan al usuario U en el conjunto de prueba es, y la tasa de recuperación describe la proporción de registros de calificación de elementos del usuario incluidos en el conjunto de prueba. lista de recomendaciones.

La precisión describe el porcentaje de registros de calificación de elementos del usuario en la lista de recomendaciones final.

La cobertura refleja la capacidad del algoritmo de recomendación para explorar la cola larga. Cuanto mayor sea la cobertura, mejor podrá el algoritmo de recomendación recomendar productos en la cola larga a los usuarios. La parte del numerador representa el número de todos los elementos recomendados al usuario en el experimento (el conjunto se elimina) y el denominador representa el número de todos los elementos del conjunto de datos.

Utilizando el conjunto de datos MovieLens proporcionado por GroupLens, /m0_37917271/article/details/8265158.

[2].Sistema de recomendación y aprendizaje profundo. Huang Xin et al. Prensa de la Universidad de Tsinghua. 2019.

[3].Práctica del algoritmo del sistema de recomendación. Meiling Huang. Prensa de la industria electrónica.

[4]. Algoritmo del sistema recomendado. Xiang Liang. Editorial Popular de Correos y Telecomunicaciones. 2012.

[5] La práctica de aprendizaje automático de Meituan. Equipo de algoritmo de Meituan. Editorial Popular de Correos y Telecomunicaciones. 2018.