Uso sincrónico de Woody Hive
Hive Metastore mantiene los metadatos a través de la estructura del directorio y las actualizaciones de datos garantizan las transacciones mediante sobrescritura. Pero los lagos de datos gestionan los metadatos mediante el seguimiento de archivos, y un directorio puede contener varias versiones de un archivo. Esto es diferente de la gestión de metadatos de Hive. Por lo tanto, para ser compatible con el metastore de Hive, Hudi necesita sincronizar los metadatos desde la línea de tiempo con el metastore de Hive en tiempo real.
Copie el paquete compilado/Hudi-Hadoop-Mr-bundle/target/Hudi-Hadoop-Mr-bundle-0.11.1 jar en auxlib en el directorio de instalación de Hive de cada directorio de nodo.
Después de ingresar a la línea recta, ejecute:
Si desea utilizar la función Hive Sync, debe activar el perfil Flink-Bundle-Shade-Hive 3 durante la compilación. El comando de compilación es el siguiente:
Flink Hive Sync admite dos modos para conectarse a Hive:
Los dos métodos de uso son los siguientes:
Por ejemplo, use HMS para configurar la sincronización de colmena:
Luego ingresamos la línea recta y ejecutamos:
Podemos ver la tabla t1 sincronizada.
Luego ejecute:
Los datos de la tabla Hu Di se pueden encontrar en Hive.
Si encuentra el siguiente error al ejecutar Flink:
Debe modificar el paquete/woody-flink-bundle/pom.xml y agregar lo siguiente en la etiqueta de reubicación Contenido:
Luego vuelve a compilar.
Enlace de referencia:
/Apache/Woody/Question/3042
Spark Hive Sync actualmente solo admite la API DataFrame. A continuación se utiliza el ejemplo del sitio web oficial para insertar datos en la tabla Woody_cow:
El elemento de configuración de sincronización de la unidad de colmena Spark Woody tiene el siguiente significado:
Igual que Flink, después de tener éxito Para la ejecución, puede utilizar Hive para consultar los datos de la tabla Woody a través de beeline.
https://hudi.apache.org/docs/syncing_metastore