Resultados de la búsqueda a petición "bigdata"

Tengo datos particionados en el HDFS. En algún momento decido actualizarlo. El algoritmo es: Lee los nuevos datos de un tema kafka. Encuentre nuevos nombres de partición de datos. Cargue los datos de las particiones con estos nombres que se ...

apache-spark scala

1 la respuesta

l tiempo de ejecución del trabajo de @Spark aumenta exponencialmente con un conjunto de datos muy amplio y un número de columnas [duplicado]

Esta pregunta es un duplicado exacto de: Importar archivo de ancho fijo de Park Gran cantidad de columnas que provocan un alto tiempo de ...

json filtering jq

1 la respuesta

jq: filtro de flujo en varios valores de la misma clave

Estoy procesando un JSON muy grande en el que necesito filtrar los objetos JSON internos utilizando el valor de una clave. Mi JSON tiene el siguiente ...

apache-kafka-streams apache-kafka streaming

1 la respuesta

¿Es una buena práctica realizar consultas de sincronización de base de datos o llamadas relajantes en trabajos de Kafka streams?

Utilizo transmisiones de Kafka para procesar datos en tiempo real, en las tareas de transmisiones de Kafka, necesito acceder a MySQL para consultar datos y llamar a otro servicio tranquilo. Todas las operaciones son sincrónicas. Me temo que ...

java .net parquet

3 la respuesta

¿Cómo ver el archivo Apache Parquet en Windows?

No pude encontrar ninguna explicación sencilla en inglés sobre los archivos de Apache Parquet. Como ¿Qué sonNecesito Hadoop o HDFS para verlos / crearlos / almacenarlos? ¿Cómo puedo crear archivos de parquet? ¿Cómo puedo ver los archivos de ...

scala apache-spark

1 la respuesta

Necesito comparar dos marcos de datos para la validación de tipo y enviar un valor distinto de cero como salida

Estoy comparando dos marcos de datos (básicamente, estos son esquemas de dos fuentes de datos diferentes, uno de la colmena y otro de SAS9.2) Necesito validar la estructura para ambas fuentes de datos, así que convertí el esquema en dos marcos ...

python datetime dataframe pyspark

1 la respuesta

PySpark: inconsistencia en la conversión de marca de tiempo a entero en el marco de datos

performance apache-spark hadoop apache-spark-sql

2 la respuesta

¿Cuál es la diferencia entre spark.sql.shuffle.partitions y spark.default.parallelism?

Cuál es la diferencia entrespark.sql.shuffle.partitions yspark.default.parallelism? He tratado de ponerlos a ambos enSparkSQL, pero el número de tarea de la segunda etapa es siempre 200.

hadoop apache-spark

2 la respuesta

¿Es posible leer archivos pdf / audio / video (datos no estructurados) usando Apache Spark?

¿Es posible leer archivos pdf / audio / video (datos no estructurados) usando Apache Spark? Por ejemplo, tengo miles de facturas en pdf y quiero leer datos de ellas y realizar algunos análisis sobre eso. ¿Qué pasos debo hacer para procesar datos ...

apache-spark spark-dataframe rdd apache-spark-2.0

2 la respuesta

Partición de parquet Spark: gran cantidad de archivos

Estoy tratando de aprovechar la partición de chispas. Estaba tratando de hacer algo como data.write.partitionBy("key").parquet("/location")El problema aquí es que cada partición crea una gran cantidad de archivos de parquet que resultan en ...

Página 1 de 13

12 3 4 5

Resultados de la búsqueda a petición "bigdata"

¿Cómo insisto en HDFS con chispa?

l tiempo de ejecución del trabajo de @Spark aumenta exponencialmente con un conjunto de datos muy amplio y un número de columnas [duplicado]

jq: filtro de flujo en varios valores de la misma clave

Etiquetas Populares

¿Es una buena práctica realizar consultas de sincronización de base de datos o llamadas relajantes en trabajos de Kafka streams?

¿Cómo ver el archivo Apache Parquet en Windows?

Necesito comparar dos marcos de datos para la validación de tipo y enviar un valor distinto de cero como salida

PySpark: inconsistencia en la conversión de marca de tiempo a entero en el marco de datos

¿Cuál es la diferencia entre spark.sql.shuffle.partitions y spark.default.parallelism?

¿Es posible leer archivos pdf / audio / video (datos no estructurados) usando Apache Spark?

Partición de parquet Spark: gran cantidad de archivos

¡Eres muy activo! ¡Es genial!

Resultados de la búsqueda a petición "bigdata"

Etiquetas Populares