Colección de citas famosas - Colección de consignas - Lógica de revisión de contenido|Desde empezar hasta cruzar el umbral

Lógica de revisión de contenido|Desde empezar hasta cruzar el umbral

Antes de comenzar el artículo, me gustaría darte dos sugerencias:

El tema de "niños en adopción" es extremadamente raro en la mayoría de las plataformas, pero Zhihu recientemente provocó un brote porque de la misma. Una crisis que amenaza la reputación de la plataforma.

La revisión de contenido es una de esas profesiones. La información sobre violaciones de leyes y regulaciones cubre una amplia gama de áreas, y nueva información sobre violaciones surge en un flujo interminable. No importa cuán experimentado sea usted, no importa cuán avanzado sea el sistema de revisión, siempre que ocurra un problema, le parecerá un problema muy básico o incluso estúpido.

Zhihu, una plataforma con una gran solidez técnica y experiencia en revisión de contenido, también tropezará con este problema, y ​​es previsible que Zhihu definitivamente seguirá allí en el futuro. Se producirán eventos de crisis causados ​​por contenido ilegal. una y otra vez, y esto es inevitable. Algunas personas dicen que para los revisores de contenido, este es el viaje desde el comienzo hasta cruzar el umbral, lo cual no es una exageración en absoluto.

Después de leer este artículo, podrá aprender más sobre la lógica de la revisión de contenido de texto, así como algunas técnicas de revisión de imágenes y videos cortos, lo cual es suficiente para complementar la reserva de conocimientos de una operación o producto en esta área.

En diferentes empresas, los estándares de clasificación para los puestos de revisión son diferentes, como revisión de seguridad de contenido, revisión de recomendación de contenido, revisión de calidad de contenido y otros puestos similares. Aunque el enfoque y las operaciones específicas son diferentes, existen muchas lógicas que son muy comunes. Para evitar complicar demasiado el artículo, nos centramos aquí en las auditorías de seguridad de contenidos más comunes.

No importa cuál sea la revisión de contenido, debe incluir los siguientes cuatro módulos básicos: revisión de la máquina, revisión manual, revisión de quejas de los usuarios y revisión de resultados.

La revisión automática consiste en revisar el contenido de acuerdo con reglas establecidas o algoritmos de aprendizaje automático. Por lo general, un sistema de revisión maduro puede revisar y procesar automáticamente el 95% o incluso más del 99% del contenido. Si se determina que hay un problema, se eliminará automáticamente. Si es difícil determinar si hay un problema, se marcará y entrará en el proceso de revisión manual.

Aunque la revisión de quejas de los usuarios y la revisión de resultados son en su mayoría revisiones manuales, la revisión manual mencionada aquí se refiere específicamente al contenido que no puede ser juzgado por la máquina de revisión, que generalmente no representa más del 5% de. la cantidad de contenido de la plataforma, %, pero para algunas plataformas de contenido grandes, el número absoluto ya es mucho. En la era de la explosión de contenidos, hemos visto que muchas plataformas tienen múltiples centros de revisión en todo el país, cada uno con miles o incluso decenas de miles de empleados.

La revisión de quejas de usuarios es un complemento a los dos primeros. Hay muchos contenidos ilegales que no han aparecido antes, por lo que no están dentro del alcance de filtrado por las reglas, o están muy ocultos y son difíciles de detectar. ser estrictamente filtrado por las reglas. Las quejas de los usuarios son un canal importante para descubrir nuevos problemas. Durante la crisis de Zhihu, debemos prestar más atención a la revisión de las quejas y complementar oportunamente la revisión de la máquina en consecuencia.

La revisión de resultados generalmente toma la forma de verificaciones aleatorias, como revisar el contenido eliminado por máquinas para ver si las reglas o algoritmos son demasiado estrictos, como revisar el contenido eliminado y aprobado manualmente para ver si el trabajo de los empleados es correcto; realizado según sea necesario; por ejemplo, a través de una inspección general del contenido, podemos ver si hay algún problema nuevo que no se haya notado.

En plataformas de contenido de texto, como Zhihu, Douban y varios sitios web de foros, la revisión automática se basa principalmente en la lógica del filtrado de palabras clave. La lógica es relativamente simple, pero no tan simple como se imagina.

Después de publicar un artículo en la plataforma, debe pasar por al menos los siguientes pasos:

En el paso de filtrado de palabras, las palabras clave se dividen principalmente en tres categorías:

Palabras clave prohibidas, siempre que esta palabra coincida, el contenido se eliminará automáticamente o se prohibirá su envío. Por lo general, solo se incluyen unas pocas palabras en las palabras clave prohibidas, como pornografía explícita, sectas y palabras clave específicas de publicidad.

Palabras clave de revisión. Este es el tipo más común de palabra clave. Siempre que coincida, pasará automáticamente al fondo para la revisión. Las palabras clave del artículo se resaltarán y enumerarán, lo que ayudará a los revisores. juzgar rápidamente. Las palabras clave de revisión también deben ser palabras clave exclusivas en la medida de lo posible para evitar que se intercepte demasiado contenido en segundo plano.

Reemplazar palabras clave. En muchas plataformas, veremos números o abreviaturas * inexplicables en el texto. Es posible que esto no esté escrito por el autor del artículo, pero la palabra es reemplazada automáticamente. La plataforma no quiere que aparezca esta palabra clave, pero los lectores normalmente pueden entenderla si se reemplaza por otra cosa. Por ejemplo, algunas palabras políticas, religiosas e incivilizadas pueden reemplazarse automáticamente.

Por supuesto, cuando los administradores agregan palabras clave, a menudo no las agregan directamente en segundo plano. De lo contrario, los usuarios pueden evitar el filtrado de palabras clave de una forma muy sencilla, como añadiendo un espacio dentro de la palabra clave, y será difícil que el sistema coincida con ella.

Por lo tanto, el contexto general admitirá el calificador {x} para limitar el texto que se puede ignorar entre dos caracteres adyacentes. x es el número de bytes ignorados. Hay instrucciones claras en el fondo del sitio web de Discuz. Por ejemplo, "a{1}s{2}s" (sin comillas) puede filtrar "ass", así como "axsxs" y "axsxxs", etc. . Para los caracteres chinos, si se utilizan las versiones GBK y Big-5, cada carácter chino equivale a 2 bytes; si se utiliza la versión UTF-8, cada carácter chino equivale a 3 bytes;

Además, las palabras clave también pueden admitir expresiones regulares para hacer coincidir palabras clave con ciertos patrones, como " /1\d{10}([^\d]+|$)/ " (sin incluir las comillas). ) se utiliza para hacer coincidir números de teléfonos móviles. Hay demasiado contenido sobre expresiones regulares. Si está interesado, puede buscar y aprender.

Lo descrito anteriormente trata principalmente sobre la revisión y las reglas del contenido del texto. La lógica es simple, pero es la más utilizada. Con el auge de los productos de vídeos cortos en los últimos años, la lógica de la revisión de contenidos requiere un soporte técnico más profundo.

Las cosas técnicas son como una biblia para la mayoría de las personas y no es necesario comprenderlas en profundidad. Seleccionamos algunos puntos fáciles de entender para echar un vistazo a la tecnología detrás de la moderación de contenido.

OCR (tecnología de reconocimiento de texto) se utiliza principalmente para identificar texto presente en imágenes. Muchos contenidos ilegales, incluida información de contacto, información pornográfica, información publicitaria, etc., se presentarán en forma de imágenes para evitar su revisión.

La tecnología de reconocimiento facial se suele utilizar para identificar figuras políticas y religiosas, una vez identificadas, pueden eliminarse directamente o marcarse como de riesgo.

La tecnología de reconocimiento de voz tiene muchos escenarios de aplicación, pero aún no es estrictamente necesaria en el campo de la revisión de contenido, por lo que rara vez se utiliza. Sin embargo, algunas plataformas de audio o transmisiones en vivo prestan más atención a la comparación de audio y la tecnología de reconocimiento de huellas de voz, que pueden identificar fácilmente algunos patrones fijos de sonidos ilegales.

Reconocimiento de video ≈ reconocimiento de imágenes. El video es una imagen basada en cuadros compuesta de imágenes y audios. Generalmente se identifica cargando capturas de pantalla de cuadros y comparándolas con los datos del servidor. El modo de revisión es el mismo que el de la imagen. Por ejemplo, la piel de la imagen se expone para determinar si es demasiado sexy o pornográfica.

Tecnología de reconocimiento semántico contextual, esta tecnología se utiliza para determinar si una oración se puede combinar con el contexto y si es un fragmento de texto basura. Por ejemplo, si ingresa una cadena aleatoria de texto extraño en el área de comentarios, si el sistema lo considera irrelevante para el contexto, hay una razón para colocar el contenido en el área de revisión.

La tecnología es genial y, cuando se usa correctamente, puede reducir en gran medida nuestro trabajo, pero la implementación de la tecnología de revisión de contenido es difícil de hacer de una vez por todas. La escala y los parámetros requieren un mantenimiento continuo por parte de personas y manuales. La revisión sigue siendo muy necesaria y es probable que aumente la necesidad de revisión manual. A la aplicación de la tecnología de revisión de contenidos todavía le queda un largo camino por recorrer.

1. Las palabras clave alternativas no pueden ser demasiado simples

Una vez leí un artículo de gestión sobre una aplicación, y el artículo completo mencionaba que se debe seguir el "principio ART" al determinar los empleados. ' rendimiento. ", dudé durante varios segundos antes de darme cuenta de que era el "principio SMART**".

La palabra SM sólo tiene dos letras y no es adecuada como palabra clave para prohibir, revisar o reemplazar. Es fácil interceptar o reemplazar una gran cantidad de contenido que no debe procesarse, y así es. Es difícil tratarlo con métodos ordinarios.

En este momento, podemos resumir el patrón. Si las dos letras sm van precedidas de letras en inglés, o seguidas de letras en inglés, en general, es otra palabra en inglés y no habrá problema. Podemos usar expresiones regulares para escribir esta regla y luego configurar la auditoría o el reemplazo, lo cual será mucho mejor.

2. La compensación entre el tiempo de revisión y la experiencia del usuario

Busque "revisión" en Zhihu y Weibo El problema que más quejas genera es el largo tiempo de revisión. El estado de ánimo del usuario fluctuará violentamente durante el período desde el momento en que el usuario envía el contenido hasta el momento en que se aprueba. Si el usuario espera uno o dos días y el contenido es rechazado inexplicablemente sin una razón clara para el rechazo, el estado de ánimo del usuario cambiará. pasó de la expectativa a la ansiedad y luego se convirtió en ira. Esta es el área donde los propietarios de la Estación B se quejan más.

Podemos optimizar la experiencia del usuario desde las siguientes perspectivas:

3. Comprender la tendencia conservadora de la revisión de contenidos

Cuanto más grande es la plataforma, más difícil es a revisar el contenido. Hay una tendencia conservadora, esto no sólo se debe a que el mercado es más grande y se presta más atención a la gestión de riesgos, sino que también hay algunas razones prácticas. Hay demasiado contenido y la plataforma tiene que utilizar reglas y algoritmos para revisarlo. Estas reglas y algoritmos deben tomar decisiones finales. Incluso si el cuchillo es pequeño, es inevitable utilizar estándares únicos. Habrá daños accidentales. Este estándar afectará mucho contenido. Parece demasiado estricto.

Por ejemplo, habrá problemas con el área expuesta de la piel y qué partes de la piel quedarán expuestas, no importa cuán detalladas sean las normas, siempre habrá errores de juicio. La proporción de contenido mal juzgado puede ser pequeña, pero el número absoluto es muy grande. Se dice que si aparece Garfield en muchas imágenes y videos, se filtrará porque su área amarilla es demasiado grande y se parece a la piel humana.

En opinión de los usuarios analizados, estos estándares son un poco conservadores, un poco inhumanos e incluso ridículos. Los administradores de la plataforma también son conscientes del problema, pero les resulta difícil ser muy detallados para eliminar rápidamente el contenido ilegal, después de todo, sólo pueden sacrificar la experiencia de usuario de algunas personas. Aparece, será un gran problema para la plataforma. Por tanto, a la aplicación de la tecnología de revisión de contenidos todavía le queda un largo camino por recorrer.

El contenido anterior es suficiente para un trabajador de operación o producto. Pero si realmente necesita ser responsable de las especificaciones de revisión del contenido de un producto, necesita adquirir más conocimientos, tener un espíritu más profesional y una actitud más cautelosa. Habrá innumerables obstáculos impredecibles esperándolo en el futuro.