Colección de citas famosas - Diccionario de frases chinas - [Adjunto código fuente completo y documentación] Sistema de recuperación de noticias basado en python

[Adjunto código fuente completo y documentación] Sistema de recuperación de noticias basado en python

1 Introducción al sistema

1.1 Requisitos del sistema

Sistema de recuperación de noticias: recopilación específica de no menos de 4 sitios web o canales de noticias sociales chinos para realizar la recuperación automática de información de noticias y comentarios de estos sitios web Rastrear, extraer, indexar y recuperar. Este proyecto no utiliza marcos maduros de código abierto como lucene y Goose.

1.2 Idea y marco del sistema

La idea general de implementación del sistema se muestra en la Figura 1:

Los pasos principales de un sistema de búsqueda completo son :

Rastrear páginas web de noticias para obtener el corpus.

Extrae el contenido principal de la noticia y obtiene datos xml estructurados.

El método de construcción del índice de escaneo de memoria de un solo paso es construir el índice invertido para el módulo de recuperación.

El usuario ingresa una consulta y se le devuelven los documentos relevantes.

2 Plan de diseño

2.1 Captura de noticias

2.1.1 Introducción al algoritmo

Este módulo se basa en las tres fuentes principales de Sohu, NetEase y Tencent Obtenga noticias de los principales sitios de noticias y sitios oficiales de noticias de referencia. Se diseñan diferentes modos de rastreo según la estructura de su sitio web. Dado que las estructuras del sitio web son similares, se seleccionan los siguientes dos representantes típicos para su introducción:

(1) Sohu News

Además de la página de inicio normal, Sohu News también tiene una lista oculta de noticias. páginas, como /1 /0903/62/Subject 212846206.shtml.

(2) NetEase News

NetEase News y Tencent News se pueden clasificar como páginas de inicio de noticias generales. Utilizamos una estrategia de rastreo recursivo que comienza desde la página de inicio de noticias. Tenga en cuenta que las páginas de inicio de noticias suelen ser páginas web estáticas. html, por lo que registramos todo lo que comienza con . html y eliminar contenido duplicado cuando se busca una cierta cantidad de contenido.

Para algunas páginas web mal clasificadas que no son noticias, el procesamiento de tolerancia a fallos consiste en comprobar la etiqueta de texto de noticias.

será eliminado.

En la página de texto de noticias, nos centramos en el contenido, el tiempo y la adquisición de comentarios.

2.1.2 Innovación

Realicé la captura de comentarios cargados dinámicamente de páginas web de noticias como Sohu News Comments.

Sin la ayuda de herramientas de rastreo de noticias de código abierto, logré un rastreo eficiente de los títulos de las noticias, el texto, la hora, el contenido de los comentarios y los números de los comentarios.

2.2 Construcción de índice

Para la segmentación de palabras, utilizamos el componente de segmentación de palabras chinas jieba de código abierto para completarla. La segmentación de palabras Jieba puede cortar una oración china en términos, de modo que TF tf. y salió df que se puede contar.

Para encontrar las palabras vacías, este paso se completa después de la segmentación de palabras de Street Fighter.

Para el almacenamiento de tablas de registros invertidos, los diccionarios se almacenan mediante árboles B o hashes, y las tablas de registros invertidos se almacenan mediante listas vinculadas adyacentes, lo que puede reducir en gran medida el espacio de almacenamiento.

El algoritmo de construcción de índice invertido adopta el método de construcción de índice de escaneo de un solo paso basado en memoria (SPIMI), es decir, cada noticia se segmenta por turno. Si aparece un nuevo término, se inserta en el. diccionario, de lo contrario será La información del documento se anexa a la tabla de publicaciones correspondiente al término.

2.3 Módulo de búsqueda

2.3.1 Modo de búsqueda

(1) Búsqueda por palabra clave

La consulta se basa en las palabras clave ingresadas por el usuario devolverá la noticia correspondiente. Primero, la segmentación de palabras de Street Fighter se realiza en función de la consulta del usuario, se registra el número de palabras después de la segmentación de palabras y se almacena en forma de diccionario.

El código fuente completo y la documentación detallada se han subido a la plataforma tecnológica WRITE-BUG. Si lo necesita, sírvase usted mismo:

/article/3122.html

上篇: ¿Cuál es el código para el color de fuente del hipervínculo de la imagen en el espacio QQ? espero amigos... 下篇: ¿Quién es "Anónimo"? Cuando era joven, me gustaba leer artículos de Liu Yong y Bi Shumin. Las revistas que compro, como "Reader" y "Digest", a menudo contienen sus palabras. Su estilo es que su lectura es relajante y agradable, y se sienten profundos y esclarecedores después de leerlos. Al mismo tiempo, también me gusta un autor llamado "Anónimo". Su estilo de escritura es similar al de estos grandes escritores: la filosofía está contenida en la relajación. No existe el nombre "Ai". En ese momento, supongo que era un seudónimo, que significaba algo parecido a "anónimo". También creo que Anonymous es mucho mejor que ellos. Liu Yong y Bi Shumin publican artículos ocasionalmente y Anonymous publica con frecuencia. ¿Quién es "Anónimo"? Para ello, consulté específicamente el Diccionario Xinhua, perdido hace mucho tiempo. La explicación del diccionario de "yi" es "yi" y "scatter". Como sugiere el nombre, "anónimo" significa un nombre que se ha perdido. Creo que en general hay varios tipos de nombres perdidos: el primero son historias transmitidas oralmente entre la gente, pero no registradas en libros o periódicos. Una vez que alguien lo graba, no puede reclamarlo como su propio trabajo original. Basta con firmar "anónimo", indicando que se trata de "la cristalización de la sabiduría colectiva". La segunda categoría es que los libros (libros antiguos en general) originalmente registraban el nombre real del autor, pero debido a la antigüedad, estos libros se perdieron o dañaron y es imposible verificar quién es el autor real, por lo que el término "anónimo" es utilizado; la tercera categoría es que el artículo involucra Para algunos temas delicados, es difícil para el autor usar su nombre real. Usar "anónimo" equivale a no usar su nombre real. La cuarta categoría es la más común y molesta. Si el nombre real del autor original es real, también quiere publicar el artículo con su nombre real, no porque sea demasiado antiguo para verificarlo, sino porque el editor es irresponsable. Respecto al artículo reimpreso, podría haber levantado la mano para saber el nombre real del autor, pero fue por conveniencia, pereza en la investigación y negligencia en la gestión. La fuente de estos artículos a menudo no es la fuente original "de primera mano" del autor. En cambio, después de ser reimpreso o publicado en foros de sitios web, el artículo será inexacto cuando finalmente se use, e incluso el nombre real del autor se "perderá". ". La ley también contiene disposiciones pertinentes sobre el derecho de firma: el artículo 10 del Capítulo 2, Sección 1 de la Ley de Derecho de Autor de mi país enumera 17 derechos que disfrutan los propietarios de derechos de autor, incluidos los "derechos personales" y los "derechos de propiedad". El derecho de autoría es uno de los derechos personales del autor protegido por la ley. El párrafo 2 del artículo 10 estipula que el derecho de autoría se refiere al derecho a identificar al autor y a firmar con su nombre en la obra. Ahora los medios de comunicación llaman precipitadamente al autor "anónimo", infringiendo su derecho de autoría, porque "anónimo" no puede identificar al autor y va en contra de sus deseos. Al mismo tiempo, los "derechos personales" y los "derechos de propiedad" están estrechamente relacionados. El autor del departamento de medios es anónimo y ni siquiera conoce su nombre real, por lo que la dirección del autor y otra información relacionada deben estar "borrosas". Los medios utilizan obras anónimas para obtener ganancias y publican, copian, alquilan, exhiben, realizan, proyectan, reproducen, adaptan, traducen y compilan obras anónimas. Sin embargo, Anonymous no recibe una remuneración relevante de acuerdo con el acuerdo o las disposiciones pertinentes del contrato. ley. Anónimo y pobre "Anónimo" ", pensé que eras un escritor prolífico, ¡pero no esperaba que fueras una víctima! Las personas anónimas utilizan armas legales para proteger agresivamente sus derechos de autor. Al mismo tiempo, al tratar con obras "anónimas", los medios pertinentes deben adoptar una actitud responsable y rigurosa y tratar de eliminar los manuscritos "anónimos".