Nombre completo de Caht gpt
1 Introducción. Chatbot ChatGPT
ChatGPT es un programa de chatbot de inteligencia artificial desarrollado por OpenAI y lanzado en junio de 2022 en octubre de 165438. El programa utiliza un modelo de lenguaje grande basado en la arquitectura GPT 3.5 y se entrena mediante aprendizaje por refuerzo.
Actualmente, ChatGPT todavía interactúa con palabras, pero además del diálogo humano natural, también se puede utilizar para trabajos de lenguaje relativamente complejos, incluida la generación automática de texto, preguntas y respuestas automáticas, resúmenes automáticos, etc.
Por ejemplo, en la generación automática de texto, ChatGPT puede generar automáticamente textos similares (guiones, canciones, planos, etc.), y en la generación automática de preguntas y respuestas, ChatGPT puede generar automáticamente respuestas basadas en las preguntas ingresadas. También tiene la capacidad de escribir y depurar programas informáticos.
Durante el período de promoción, todos pueden registrarse de forma gratuita y usar ChatGPT para hablar con el robot de IA de forma gratuita después de iniciar sesión.
ChatGPT puede escribir artículos que son similares al nivel de personas reales y rápidamente llamó la atención porque brindó respuestas detalladas y claras en muchas áreas del conocimiento, lo que demuestra que también puede ser competente en tareas que antes eran Se creía imposible que los empleos basados en el conocimiento sean reemplazados por la IA, que ha tenido un impacto considerable en las finanzas y en los mercados laborales administrativos, pero su precisión fáctica desigual se considera un defecto importante.
Se basa en los resultados del entrenamiento con modelos mentales y se considera que requiere una corrección cuidadosa. Después del lanzamiento de ChatGPT en junio de 2022, la valoración de OpenAI aumentó a 29 mil millones de dólares [7]. Dos meses después de conectarse, el número de usuarios alcanzó los 65.438 millones.
2. ¿Cómo entrena ChatGPT los datos?
ChatGPT utiliza aprendizaje supervisado y aprendizaje reforzado basado en comentarios humanos para perfeccionar GPT-3.5. Ambos métodos utilizan entrenadores humanos para mejorar el rendimiento del modelo y aumentar el aprendizaje automático con intervención humana para lograr resultados más realistas.
En el caso del aprendizaje supervisado, el modelo proporciona un diálogo en el que el formador J desempeña el papel de usuario y asistente de IA. En el paso de refuerzo, el entrenador humano primero califica las respuestas producidas por el modelo en conversaciones previas.
Estos niveles se utilizan para crear un "modelo de recompensa" que se perfecciona aún más mediante múltiples iteraciones de Optimización de políticas de proximidad - PPO.
Este algoritmo de optimización de políticas es más efectivo que el algoritmo de optimización de políticas de región de confianza. Los modelos fueron entrenados en asociación con Microsoft en su infraestructura de supercomputación Microsoft Azure.
Además, OpenAI continúa recopilando datos de los usuarios de ChatGPT, que se pueden utilizar para entrenar y perfeccionar aún más ChatGPT. Permite a los usuarios votar hacia arriba o hacia abajo en las respuestas que reciben de ChatGPT; al votar hacia arriba o hacia abajo, también pueden completar un campo de texto con comentarios adicionales.
Los datos de capacitación de ChatGPT incluyen varios documentos y diversos conocimientos sobre Internet y lenguajes de programación, como BBS y el lenguaje de programación Python.
En cuanto al entrenamiento de la capacidad de ChatGPT para escribir y depurar programas informáticos, el modelo de aprendizaje profundo es el mismo que todos los demás modelos de lenguaje basados en aprendizaje profundo, excepto que obtiene correlaciones estadísticas entre fragmentos de código.