Re: DataflowsError

Syndicate_Admin · ‎03-13-2025

Hola a todos,

Obtener el error al ejecutar Dataflow, parece que debido al tamaño de los datos, ¿cómo resolver el error?

Error: PipelineException: El tamaño de datos sin comprimir especificado en un encabezado de paquete supera el límite máximo: GatewayDecompressor - Header.UncompressedDataSize (211517212) de un paquete comprimido supera la carga útil sin comprimir máxima permitida de 157286421..Param1 = PipelineException: El tamaño de datos sin comprimir especificado en un encabezado de paquete supera el límite máximo: GatewayDecompressor - Header.UncompressedDataSize (211517212) de un paquete comprimido supera la carga útil sin comprimir máxima permitida de 157286421

Syndicate_Admin · ‎05-11-2025

Gracias por la respuesta, en realidad para la extracción doy digamos 9 am , el flujo de Power Automate se ejecuta cuando la extracción es exitosa, pero el punto de activación para el informe final es cuando se completa la transformación, pero tanto la transformación como el informe comienzan a ejecutarse en paralelo incluso en la condición if else

Syndicate_Admin · ‎05-11-2025

@ArvindJha,

Con lo que se está encontrando es con un comportamiento común en Power Automate, las acciones colocadas una después de la otra no esperan automáticamente a que se completen las anteriores a menos que se configure explícitamente para hacerlo.

Incluso si usa condiciones if/else, si ambas bifurcaciones o pasos no están anidados correctamente o no se controlan con "Configurar ejecución después", Power Automate aún puede intentar ejecutarlos en paralelo, especialmente si las acciones no tienen un vínculo de dependencia verdadero.

Saludos
Hammad.
Equipo de apoyo a la comunidad

Syndicate_Admin · ‎04-13-2025

@ArvindJha,

Gracias por ponerse en contacto con el foro de la comunidad de Microsoft Fabric.

Parece que se enfrenta a un problema al ejecutar su flujo de datos y sugiere que podría deberse al tamaño de los datos. Como @rajendraongole1 ya respondió a su consulta, revise su respuesta y márquela como solución si resuelve su problema.

También me gustaría tomarme un momento para agradecer a @rajendraongole1 por participar activamente en el foro de la comunidad y por las soluciones que han estado compartiendo en el foro de la comunidad. Sus contribuciones marcan una diferencia real.

Si no entiendo sus necesidades o aún tiene problemas con él, no dude en hacérnoslo saber.

Saludos
Hammad.
Equipo de apoyo a la comunidad

Si esta publicación ayuda, márquela como una solución, para que otros miembros la encuentren más rápidamente.

Gracias.

Syndicate_Admin · ‎04-19-2025

@ArvindJha,

Como no hemos tenido noticias suyas, simplemente seguimos con nuestro mensaje anterior. Me gustaría confirmar si ha resuelto con éxito este problema o si necesita más ayuda.

En caso afirmativo, puede compartir su solución alternativa y marcarla como una solución para que otros usuarios también puedan beneficiarse. Si encuentra una respuesta particularmente útil para usted, también puede marcarla como una solución.

Si aún tiene alguna pregunta o necesita más ayuda, no dude en hacérnoslo saber. Estamos más que felices de seguir ayudándole.
Gracias por su paciencia y esperamos tener noticias suyas.

Syndicate_Admin · ‎04-23-2025

@ArvindJha,

Quería comprobar si ha tenido la oportunidad de revisar la información proporcionada. No dude en ponerse en contacto con nosotros si tiene más preguntas. Si mi respuesta ha respondido a su consulta, acéptela como una solución para que otros miembros de la comunidad puedan encontrarla fácilmente.

Gracias.

Syndicate_Admin · ‎04-28-2025

@ArvindJha,

¿Puedo preguntarle si ha resuelto este problema? Si es así, marque la respuesta útil y acéptela como la solución. Esto será útil para que otros miembros de la comunidad que tengan problemas similares lo resuelvan más rápido.

Gracias.

Syndicate_Admin · ‎03-13-2025

Hola @ArvindJha : estos errores son comunes cuando se está procesando un paquete de datos en el flujo de datos de Power BI que supera el tamaño máximo permitido

Intenta limitar la cantidad de filas o columnas procesadas en tu Dataflow:

Intente reducir columnas, filtrar datos y habilitar primero la actualización incremental. Si el problema persiste, compruebe la memoria de la puerta de enlace y considere la posibilidad de particionar los datos.

Opción 2: Si es posible, divida las tablas grandes en tablas más pequeñas y procéselas por separado

Ref: Enlace:

Solución de problemas de flujos de datos en Power BI | Tutorial de Power Query Ep8 | Power BI | Cons...

https://community.fabric.microsoft.com/t5/Service/PipelineException-when-running-dataflow-Compressed...

Syndicate_Admin · ‎04-19-2025

Gracias por la respuesta, todo esto ya está solucionado, pero el problema persiste, para que ocurra la carga incremental, tiene que hacer la carga completa la primera vez, ¿verdad? las columnas se reducen a lo que se requiere, funciona absolutamente bien en QlikSense

Syndicate_Admin · ‎05-02-2025

@ArvindJha,

Gracias por ponerse en contacto con el foro de la comunidad de Microsoft Fabric.

Tiene razón acerca de que Power BI requiere una carga completa inicialmente cuando la actualización incremental está habilitada, y parece que ya ha optimizado el conjunto de datos de manera reflexiva.

Una cosa que se debe tener en cuenta es cómo se estructuran los pasos de consulta dentro del flujo de datos. Si una transformación determinada (como fusionar, anexar o expandir) da como resultado un objeto en memoria muy grande, incluso brevemente, puede hacer que un solo paquete supere el tamaño sin comprimir permitido, lo que provoca este error. A diferencia de QlikSense, Power BI no transmite todos los datos paso a paso durante la transformación y puede materializar resultados intermedios en memoria dependiendo de cómo se construya la consulta.

Si es posible, intente revisar los pasos de la consulta para ver si una operación específica puede estar generando un conjunto de datos intermedio de gran tamaño. Dividir esa transformación en pasos más pequeños, tal vez materializando los pasos anteriores en un flujo de datos provisional o aplicando filtros antes en la cadena, puede ayudar a distribuir la carga de manera más uniforme.

También me gustaría tomarme un momento para agradecer a @rajendraongole1 por participar activamente en el foro de la comunidad y por las soluciones que han estado compartiendo en el foro de la comunidad. Sus contribuciones marcan una diferencia real.

Si no entiendo sus necesidades o aún tiene problemas con él, no dude en hacérnoslo saber.

Saludos
Hammad.
Equipo de apoyo a la comunidad

Si esta publicación ayuda, márquela como una solución, para que otros miembros la encuentren más rápidamente.

Gracias.

Syndicate_Admin · ‎05-02-2025

No hay transformación, es flujo de datos de extracción solo estoy reduciendo las columnas de 150 a 20, qliksense incluso está trabajando con 50 columnas, pbi falla con 20 columnas, en algunos casos en realidad el problema es una columna llamada REASON que es un campo de texto que oscila entre 0 y 255 caracteres, si reduzco el tamaño de la columna a 20, funciona en algunos casos, en otros casos, incluso eso no funciona donde el tamaño de qvd en qlik supera los 5 GB, Power BI no puede manejar, ¿significa que PBI no puede manejar datos tan grandes?

Syndicate_Admin · ‎05-02-2025

Hay algunos otros casos en los que el flujo de datos se mantiene en ejecución durante 24 horas y falla, ya que ese es el límite de tiempo de espera

Syndicate_Admin · ‎05-03-2025

@ArvindJha,

Los flujos de datos de Power BI tienen limitaciones en cuanto a la cantidad de datos sin comprimir que se pueden contener en un solo paquete, especialmente cuando se trata de campos de texto libre grandes como el que ha mencionado. A diferencia de QlikSense, Power BI no fragmenta ni transmite campos de texto grandes de la misma manera durante la ingesta, lo que probablemente sea la razón por la que está llegando a un techo incluso con menos columnas.

Para responder a su pregunta, Power BI puede controlar grandes conjuntos de datos, pero existen restricciones arquitectónicas al cargarlos a través de flujos de datos, especialmente en escenarios de extracción en los que no hay lógica de transformación para dividir o agrupar los datos de forma natural. Esta es también la razón por la que se observan flujos de datos de larga duración que acaban alcanzando el tiempo de espera de 24 horas.

Es posible que desee explorar primero la preparación de los datos sin procesar fuera del flujo de datos (por ejemplo, almacenarlos en un lago de datos o un lago de datos y, a continuación, vincularlos) o dividir la carga en varios flujos de datos filtrados por alguna clave de lote, como la fecha o la región. De esa manera, evitas cargar demasiado a la vez y te mantienes dentro de los límites de la plataforma.

Saludos

Hammad.

Syndicate_Admin · ‎05-04-2025

gracias por la respuesta, ya nos hemos dividido en 10 flujos de datos, pero en qlik el tamaño total de qvd es de alrededor de 70-80 GB, la fuente sin procesar son archivos csv, también otra pregunta sobre alcanzar el límite de 24 horas, si elimino ese campo de texto en uno de los flujos anteriores, solía ejecutarse en 4-5 horas algunos días, algunos días de 7 a 8 horas, por qué la diferencia en el tiempo y, a veces, alcanzar el límite de 24 horas, hay una gran variación en el tiempo para los 10 flujos de datos que van desde 4 horas hasta llegar a 24 horas y el tiempo de espera de Qlik es bastante consistente y se completa entre 3 y 4 horas, también Qlik tiene solo 1 aplicación que lo hace y Power BI se ha dividido en 10 flujos de datos

Syndicate_Admin · ‎05-05-2025

@ArvindJha,

En función de lo que ha compartido, la variabilidad en tiempo de ejecución incluso después de dividirse en 10 flujos de datos sugiere que el problema puede estar relacionado con la forma en que Power BI controla la asignación de recursos y el rendimiento de E/S durante la extracción.

Los flujos de datos, especialmente los que trabajan directamente con archivos planos de gran tamaño como los CSV, pueden experimentar un rendimiento incoherente debido a factores como la estructura del archivo de entrada, el comportamiento de compresión y la carga de back-end en el momento de la ejecución. Si los archivos varían en tamaño de fila, codificación o contenido de columna (como campos de texto de alta varianza), eso puede hacer que ciertas ejecuciones tarden mucho más tiempo, incluso si el tamaño total del archivo es similar.

Además, dado que no hay ninguna transformación, Power BI intenta ingerir todo el conjunto de datos tal cual y, con columnas con mucho texto, los tamaños de los paquetes pueden aumentar de forma impredecible en función de la distribución del contenido en un día determinado.

Las comparaciones con Qlik son válidas, y la diferencia de rendimiento se reduce en gran medida a las diferencias en la arquitectura de ingesta y en cómo cada plataforma maneja la memoria, el paralelismo y el procesamiento por lotes durante la carga.

Saludos

Hammad.

Syndicate_Admin · ‎05-07-2025

Gracias por la respuesta, ¿cuál sería la mejor manera de programar los flujos de datos en secuencia, como 10 daatflows de extracción (que se ejecuta en paralelo) y luego el flujo de datos de transformación se ejecuta una vez que esos 10 flujos de datos se ejecutan correctamente y luego se ejecuta el informe

Syndicate_Admin · ‎05-08-2025

@ArvindJha,

Para el escenario 10 flujos de datos de extracción, seguido de un flujo de datos de transformación y, a continuación, una actualización de informe, el enfoque más sólido sería:

'* Use una canalización de Fabric Data Factory (si usa Microsoft Fabric). Puede agregar cada uno de los 10 flujos de datos de extracción como actividades de canalización independientes. A continuación, configúrelos para que se ejecuten en paralelo y, a continuación, agregue una dependencia "esperar a todos" antes de desencadenar el flujo de datos de transformación. Una vez completado el flujo de datos de transformación, agregue una actividad de actualización del modelo semántico de Power BI para actualizar el informe.

* Método alternativo a través de Power Automate (si no está usando Fabric), puede usar los desencadenadores/acciones "Actualizar un flujo de datos" y "Cuando se complete una actualización de flujo de datos". Este método funciona, pero puede resultar complejo para varias dependencias paralelas.

Esta configuración le dará un control total sobre la secuenciación, el manejo de errores y la supervisión en todas las etapas. Avíseme si desea ayuda para redactar una canalización de Fabric o configurarla en Power Automate.

Si no entiendo sus necesidades o aún tiene problemas con él, no dude en hacérnoslo saber.

Saludos
Hammad.
Equipo de apoyo a la comunidad

Si esta publicación ayuda, márquela como una solución, para que otros miembros la encuentren más rápidamente.

Gracias.

Syndicate_Admin · ‎05-10-2025

Gracias por la respuesta, ¿podemos programar 10 flujos de datos de extracción, 2 flujos de transformación Daat, 1 informe utilizando 1 flujo de Power Automate? ¿Podemos tener más de 1 desencadenador en el flujo de Power Automate?

Syndicate_Admin · ‎05-11-2025

@ArvindJha,

Gracias por seguir con la conversación. En Power Automate, cada flujo solo puede tener un desencadenador, por lo que no puede iniciar el flujo en función de varios eventos independientes (como varios flujos de datos que se completan).

Sin embargo, puede controlar toda la secuencia, desde la extracción de datos hasta su transformación y la actualización del informe dentro de un único flujo de Power Automate, siempre que lo inicie desde un punto de partida.

Saludos

Hammad.