Cómo rastrea Excel los datos web Rastreo de datos JSON
Al rastrear una página web, debe agregar información del encabezado para obtener los datos que necesita.
En la primera página de resultados de búsqueda, podemos leer el número total de posiciones de JSON y obtener el número de páginas a rastrear en función de 15 posiciones por página. Luego use un bucle para rastrear página por página, resumir la información de ubicación y generarla en formato CSV.
El programa se ejecuta como se muestra en la figura:
Los resultados del rastreo son como se muestran en la figura:
La limpieza de datos representa la mayor parte del análisis de datos. carga de trabajo. Encuentre la ubicación de "Análisis de datos" en Shenzhen en Lagou. Contamos con 369 ubicaciones. Cuando miré los títulos de los puestos de trabajo, vi que había 4 puestos de prácticas. Debido a que estamos buscando puestos de tiempo completo, primero eliminaremos los puestos de pasantías. Debido a que la experiencia laboral y el salario son rangos en forma de cadenas, primero usamos expresiones regulares para extraer los valores y generarlos en forma de lista. La experiencia laboral promedio y el salario trimestral se acercan a la realidad.
4. Nube de palabras
Resumimos los datos en la columna de beneficios laborales, generamos una cadena y generamos una nube de palabras según la frecuencia de las palabras para lograr la visualización en Python. A continuación se muestra una comparación entre la imagen original y la palabra nube. Se puede observar que entre los beneficios laborales aparecen con mayor frecuencia cinco seguros y un fondo de vivienda, seguidos de plataformas, beneficios, espacio de desarrollo y trabajo flexible.
5. Estadísticas descriptivas
Se puede observar que el valor promedio de los analistas de datos es 14,6K y la mediana es 12,5K. Es una carrera prometedora. El análisis de datos se encuentra disperso en varias industrias, pero implica niveles avanzados de extracción de datos y aprendizaje automático y ha logrado grandes avances en la industria de TI.
Echemos un vistazo a la distribución salarial, que es una referencia importante para la búsqueda de empleo:
La mayoría de los puestos con un salario de 10-15K, seguidos de los puestos con un salario de 15-20K. En mi humilde opinión, las posiciones de 10-15K se basan principalmente en el modelado, y las posiciones por encima de 20K se basan principalmente en la minería de datos y la arquitectura de big data.
Echemos un vistazo a la distribución de empleos en cada distrito:
62,9 puestos de análisis de datos están en el distrito de Nanshan, 25,8 están en el distrito de Futian y el resto se distribuyen en el distrito de Longgang. , Distrito de Luohu, Distrito de Baoan y Distrito Nuevo del Distrito de Longhua. Podemos ver que el distrito de Nanshan y el distrito de Futian son los centros de la industria tecnológica de Shenzhen.
Queremos obtener la relación entre salario, experiencia laboral y formación. Como la educación se divide en tres categorías, necesitamos establecer tres variables ficticias: título asociado, título de licenciatura y título de maestría. Los resultados de la regresión múltiple son los siguientes:
En el nivel de significancia de 0,05, el valor F es 82,53, lo que indica que la relación de regresión es significativa. Tanto la prueba t como el valor P correspondiente son inferiores a 0,05, lo que indica que la experiencia laboral y los tres tipos de educación son estadísticamente significativos. Además, el valor de R cuadrado es 0,41, lo que indica que la experiencia laboral y la educación explican sólo el 41% de la variabilidad salarial. Esto no es difícil de entender, incluso si todos los puestos se llaman analistas de datos, el contenido del trabajo real es muy diferente. Algunos solo usan Excel para el análisis básico y otros usan Python y R para la extracción de datos. Además, cada empresa difiere en tamaño y en la compensación que están dispuestas a ofrecer. Sin embargo, debido a las diferencias en el contenido del puesto y la generosidad de las empresas, es difícil obtener datos reales sólo a través de promociones en las páginas web de contratación, lo que lleva a la realidad de que la bondad de ajuste del modelo no es muy buena.