Colección de citas famosas - Colección de máximas - ¿Cómo pueden los gerentes de producto comenzar con la PNL?

¿Cómo pueden los gerentes de producto comenzar con la PNL?

El procesamiento del lenguaje natural, como su nombre indica, es la tecnología de procesamiento del lenguaje natural, a menudo denominada PNL. Los gerentes de producto de todo tipo encontrarán una gran cantidad de escenarios de aplicaciones de procesamiento de lenguaje natural en su trabajo diario. Tomando la recomendación inteligente como ejemplo, se utilizará en escenarios como la clasificación de texto y la clasificación de temas de los objetos a recomendar. Este artículo habla sobre cómo comenzar con el procesamiento del lenguaje natural desde la perspectiva de un gerente de producto.

Modo estadístico

El ataque de muchos expertos a la inteligencia artificial es que la inteligencia artificial es solo datos estadísticos, no es "inteligencia" real. En la era actual de "inteligencia artificial débil", aprender modelos estadísticos todavía tiene un valor importante.

Tomemos como ejemplo el modelo bayesiano comúnmente utilizado en la clasificación de escenas. En el corpus que se ha utilizado para el conjunto de entrenamiento, podemos obtener las probabilidades de A, B y B mediante estadística, y calcular la probabilidad de que A aparezca al mismo tiempo que aparece B (es decir, la probabilidad de que A aparezca dado la muestra B). Esto se puede obtener directamente de los tres primeros calculados a partir de una probabilidad estadística.

Por supuesto, la premisa del modelo bayesiano anterior es que la cantidad de datos es lo suficientemente grande como para satisfacer la ley de los grandes números. No es difícil descubrir que la esencia de los modelos estadísticos es que, suponiendo que la cantidad de datos sea lo suficientemente grande, podemos utilizar las estadísticas de muestras existentes para hacer juicios o predicciones.

Proceso de circuito cerrado

La tecnología PNL tiene una amplia gama de escenarios de aplicación flexibles. En muchos casos, como proceso de tecnología de procesamiento intermedio, los usuarios finales no la perciben. Además, la aparición de nuevas tecnologías de procesamiento del lenguaje natural en los últimos años ha deslumbrado y abrumado a los gerentes de producto que desean iniciarse en el procesamiento del lenguaje natural.

La introducción del procesamiento del lenguaje natural también requiere atención a MVP, estableciendo la cognición inicial con el ciclo cerrado mínimo viable, y luego expandiendo y enriqueciendo continuamente el sistema de conocimiento de PNL, y estableciendo gradualmente un gran marco y cognición.

Las tareas comunes de procesamiento del lenguaje natural se pueden dividir en "segmentación de palabras" ->; "características arquitectónicas" ->; "modo de entrenamiento" ->;

El proceso anterior, excepto la segmentación de palabras, es el mismo que el proceso habitual de aprendizaje automático. Las palabras en inglés se separan y no requieren participios. Pero en el caso del chino, las palabras están conectadas entre sí, por lo que el contenido del texto debe dividirse en palabras antes de procesarlo.

Después de la segmentación de palabras, la computadora no puede entender directamente los caracteres chinos, por lo que las palabras deben codificarse en números que la computadora pueda entender antes de procesarlas. Esta etapa es la etapa de creación de funciones.

Una vez completadas las funciones, decidimos qué algoritmo usar para entrenar el modelo según el tipo de tarea de procesamiento del lenguaje natural y, finalmente, aplicamos el modelo entrenado a una tarea de clasificación o predicción específica. Tarea de procesamiento del lenguaje natural completada.

Marcado y preprocesamiento

En los productos de recomendación inteligentes en los que trabajamos hace unos años, el propio sistema de recomendación tomó el CTR como objetivo de optimización y, de hecho, utilizó clic o no como etiqueta. , que equivale a la Ayuda del usuario con el trabajo de anotación distribuida.

En las tareas tradicionales de procesamiento del lenguaje natural basadas en estadísticas, la mayoría de las tareas son aprendizaje supervisado, lo que requiere una gran cantidad de trabajo de anotaciones en el corpus existente para garantizar el funcionamiento normal de la tarea.

Por ejemplo, identificar si una emoción es positiva requiere que las personas marquen si un fragmento de información es una emoción positiva en el corpus. Luego, este corpus se utiliza como modelo de entrenamiento para que el conjunto de entrenamiento genere un modelo de clasificación de reconocimiento de emociones para el reconocimiento de emociones.

El preprocesamiento de documentos suele implicar la eliminación de signos de puntuación, palabras vacías, números, etc. Para eliminar contenido irrelevante del lenguaje natural y acelerar los cálculos informáticos y la generación de modelos.

Después de completar el procesamiento anterior, el documento se puede segmentar y luego se pueden codificar las palabras.

Principios de algoritmos y tareas comunes

El procesamiento del lenguaje natural generalmente tiene los siguientes escenarios de aplicación: segmentación de palabras, etiquetado de partes del discurso, reconocimiento de temas, reconocimiento de emociones, clasificación de texto, traducción automática. , etc. A continuación se presentarán brevemente las principales aplicaciones y los principios algorítmicos detrás de ellas.

Problema de clasificación supervisada. Ya sea el reconocimiento de emociones o la clasificación de spam, esencialmente se pueden transformar en varios tipos de problemas de clasificación. De acuerdo con la lógica de la fórmula bayesiana, se anotan los datos del corpus existente y, según la lógica del modelo estadístico, se entrena el modelo de clasificación.

El contenido a identificar se califica mediante el cálculo del modelo y la identificación se puede completar según el umbral. Por ejemplo, el reconocimiento de emociones de clasificación binaria puede clasificar 0-0,5 como emoción negativa y 0,5-1 como emoción positiva. La clasificación múltiple consiste en calcular a qué intervalo está más cerca la muestra a clasificar, es decir, qué tipo se reconoce.

Problema de clasificación no supervisada. En el procesamiento del lenguaje natural, a menudo existe la tarea de reconocimiento de temas y generalmente se utiliza el modelo de temas LDA. La lógica central es dividir el artículo en tres niveles de lógica: documento, tema y palabra, y completar automáticamente la agrupación de palabras según el tema mediante el aprendizaje no supervisado. Al tratarse de un aprendizaje no supervisado, es necesario especificar el número de temas a estudiar de acuerdo con la situación real y finalmente seleccionar el resultado más razonable. Confíe en el juicio subjetivo y la comprensión de las personas sobre el tema detrás de una serie de palabras.

Surgen problemas. Los problemas de generación comunes incluyen corrección de errores de texto, generación de palabras, generación de oraciones, traducción automática, etc. Desde la perspectiva de la lógica estadística, el problema de generación es calcular la probabilidad de que el contenido se genere a continuación en función de las estadísticas del corpus existente. Tomando la traducción automática como ejemplo, es necesario preparar de antemano una gran cantidad de corpus comparativos chino-inglés. Con base en el corpus, puede aprender el conocimiento de la comparación de palabras y frases entre chino e inglés a través del aprendizaje automático y, finalmente, generar el contenido de traducción correspondiente en chino o inglés en el escenario de traducción.

Tome el modelo oculto de Markov como ejemplo para el etiquetado de partes del discurso. Según el corpus anotado, el modelo oculto de Markov puede aprender la probabilidad de transición de estado de la parte del discurso entre palabras. Calcula a qué parte del discurso pertenece la palabra según esta probabilidad.

Aplicaciones del aprendizaje profundo. La red neuronal construida por CNN es adecuada para resolver problemas de clasificación de PNL, pero como no tiene memoria, no puede resolver el problema de generación. En comparación con CNN, RNN puede resolver problemas de memoria de cierta longitud y es adecuado para resolver problemas de generación de cierta longitud en el campo de la PNL, como la generación de palabras, pero no puede retener la memoria a largo plazo. LSTM tiene la capacidad de memoria a largo plazo y puede completar la tarea de crear oraciones.

El valor de la aplicación del procesamiento del lenguaje natural

El texto es el dato de producción más común. Los gerentes de producto pueden ampliar sus horizontes aprendiendo los principios y aplicaciones de la PNL.

Tomando como ejemplo la industria de la educación en línea, podemos utilizar capacidades de procesamiento del lenguaje natural para identificar automáticamente las tendencias emocionales de los comentarios de los estudiantes y podemos ayudar a los profesores a corregir composiciones, establecer y resolver preguntas automáticamente.

No es difícil ver que los escenarios de aplicación del procesamiento del lenguaje natural no son imposibles para los humanos, pero pueden reemplazar el trabajo físico humano, mejorar en gran medida la eficiencia de las tareas y liberar a las personas para realizar trabajos más valiosos.

Xiao Ledi, gerente de productos de inteligencia artificial de primera línea, excelente autor de tecnología y fundador del Product Manager Reading Club.

"Club de lectura para gerentes de productos"

Céntrese en personas que aman leer y pensar en productos, brindando un entorno para recomendaciones de lectura, pensamiento sobre productos y entablar amistad con los libros.