ábrica de datos @Azure | carga de datos incremental de SFTP a Blob

Creé una canalización DF (V2) (una vez ejecutada) para cargar archivos (.lta.gz) desde un servidor SFTP en un blob azul para obtener datos históricos. Funcionó muy bien. Todos los días habrá varios archivos nuevos en el servidor SFTP (que no pueden ser manipulados o eliminados). Por lo tanto, quiero crear una tubería de carga incremental que verifique diariamente si hay nuevos archivos, si es así ---> copie nuevos archivos.

¿Alguien tiene algún consejo para mí sobre cómo lograr esto?

Respuestas a la pregunta(2)

Gracias por usar Data Factory!

Para cargar incrementalmente los archivos recién generados en el servidor SFTP, puede aprovechar la actividad GetMetadata para recuperar la propiedad LastModifiedDate:https: //docs.microsoft.com/en-us/azure/data-factory/control-flow-get-metadata-activit

sencialmente, usted crea una canalización que contiene las siguientes actividades:

getMetadata (lista de retorno de archivos en una carpeta determinada)ForEach (iterar a través de cada archivo)getMetadata (devolver lastModifiedTime para un archivo determinado)IfCondition (compare lastModifiedTime con trigger WindowStartTime) Copiar (copiar el archivo de origen a destino)

Diviértete creando flujos de integración de datos usando Data Factory!

 Shannon Lowder23 may. 2018 21:37
¿Hay algún ejemplo de esto que podamos seguir? Me gustaría ver esta configuración.
 Shirley Wang25 may. 2018 08:55
Hola Shannon, por favor envíeme un correo electrónico a [email protected] y puedo enviarle un ejemplo de JSON.

Desde que publiqué mi respuesta anterior en mayo del año pasado, muchos de ustedes me contactaron para pedirme una muestra de canalización para lograr el escenario de copia de archivo incremental usando el patrón getMetadata-ForEach-getMetadata-If-Copy. Esto ha sido una retroalimentación importante de que la copia incremental de archivos es un escenario común que queremos optimizar aún más.

Hoy me gustaría publicar una respuesta actualizada: recientemente lanzamos una nueva función que permite un enfoque mucho más fácil y escalable para lograr el mismo objetivo:

Ahora puede configurar modifiedDatetimeStart y modifiedDatetimeEnd en el conjunto de datos SFTP para especificar los filtros de rango de tiempo para extraer solo los archivos que se crearon / modificaron durante ese período. Esto le permite lograr la copia de archivo incremental usando una sola actividad:https: //docs.microsoft.com/en-us/azure/data-factory/connector-sftp#dataset-propertie

Esta función está habilitada para estos conectores basados en archivos en ADF: AWS S3, Azure Blob Storage, FTP, SFTP, ADLS Gen1, ADLS Gen2 y el sistema de archivos local. El soporte para HDFS llegará muy pronto.

Además, para facilitar aún más la creación de una tubería de copia incremental, ahora lanzamos patrones de tubería comunes como plantillas de solución. Puede seleccionar una de las plantillas, completar el servicio vinculado y la información del conjunto de datos, y hacer clic en implementar: ¡es así de simple! @https: //docs.microsoft.com/en-us/azure/data-factory/solution-templates-introductio

Debería poder encontrar la solución de copia incremental de archivos en la galería:https: //docs.microsoft.com/en-us/azure/data-factory/solution-template-copy-new-files-lastmodifieddat

¡Una vez más, gracias por usar ADF y la integración feliz de datos de codificación con ADF!

Su respuesta a la pregunta