Resultados de la búsqueda a petición "bigdata"

1 la respuesta

¿Cómo insisto en HDFS con chispa?

Tengo datos particionados en el HDFS. En algún momento decido actualizarlo. El algoritmo es: Lee los nuevos datos de un tema kafka. Encuentre nuevos nombres de partición de datos. Cargue los datos de las particiones con estos nombres que se ...

1 la respuesta

l tiempo de ejecución del trabajo de @Spark aumenta exponencialmente con un conjunto de datos muy amplio y un número de columnas [duplicado]

Esta pregunta es un duplicado exacto de: Importar archivo de ancho fijo de Park Gran cantidad de columnas que provocan un alto tiempo de ...

1 la respuesta

jq: filtro de flujo en varios valores de la misma clave

Estoy procesando un JSON muy grande en el que necesito filtrar los objetos JSON internos utilizando el valor de una clave. Mi JSON tiene el siguiente ...

1 la respuesta

¿Es una buena práctica realizar consultas de sincronización de base de datos o llamadas relajantes en trabajos de Kafka streams?

Utilizo transmisiones de Kafka para procesar datos en tiempo real, en las tareas de transmisiones de Kafka, necesito acceder a MySQL para consultar datos y llamar a otro servicio tranquilo. Todas las operaciones son sincrónicas. Me temo que ...

3 la respuesta

¿Cómo ver el archivo Apache Parquet en Windows?

No pude encontrar ninguna explicación sencilla en inglés sobre los archivos de Apache Parquet. Como ¿Qué sonNecesito Hadoop o HDFS para verlos / crearlos / almacenarlos? ¿Cómo puedo crear archivos de parquet? ¿Cómo puedo ver los archivos de ...

1 la respuesta

Necesito comparar dos marcos de datos para la validación de tipo y enviar un valor distinto de cero como salida

Estoy comparando dos marcos de datos (básicamente, estos son esquemas de dos fuentes de datos diferentes, uno de la colmena y otro de SAS9.2) Necesito validar la estructura para ambas fuentes de datos, así que convertí el esquema en dos marcos ...

1 la respuesta

PySpark: inconsistencia en la conversión de marca de tiempo a entero en el marco de datos

Tengo un marco de datos con una estructura aproximada como la siguiente: +-------------------------+-------------------------+--------+ | timestamp | adj_timestamp | values | +-------------------------+-------------------------+--------+ | ...

2 la respuesta

¿Cuál es la diferencia entre spark.sql.shuffle.partitions y spark.default.parallelism?

Cuál es la diferencia entrespark.sql.shuffle.partitions yspark.default.parallelism? He tratado de ponerlos a ambos enSparkSQL, pero el número de tarea de la segunda etapa es siempre 200.

2 la respuesta

¿Es posible leer archivos pdf / audio / video (datos no estructurados) usando Apache Spark?

¿Es posible leer archivos pdf / audio / video (datos no estructurados) usando Apache Spark? Por ejemplo, tengo miles de facturas en pdf y quiero leer datos de ellas y realizar algunos análisis sobre eso. ¿Qué pasos debo hacer para procesar datos ...

2 la respuesta

Partición de parquet Spark: gran cantidad de archivos

Estoy tratando de aprovechar la partición de chispas. Estaba tratando de hacer algo como data.write.partitionBy("key").parquet("/location")El problema aquí es que cada partición crea una gran cantidad de archivos de parquet que resultan en ...