Resultados de la búsqueda a petición "apache-spark"
¿Se puede dividir el archivo Parquet comprimido en HDFS para Spark?
Recibo mensajes confusos al buscar y leer respuestas en Internet sobre este tema. ¿Alguien puede compartir su experiencia? Sé con certeza que csv gzipped no lo es, pero tal vez las estructuras internas de archivos para Parquet son tales que es un ...
¿Por qué no es posible unirse después de mostrar operador?
El siguiente código funciona bien hasta que agregueshow despuésagg. Por que esshow ¿imposible? val tempTableB = tableB.groupBy("idB") .agg(first("numB").as("numB")) //when I add a .show here, it doesn't work tableA.join(tempTableB, $"idA" === ...
eliminar columnas NULL en Spark SQL
¿Cómo eliminar columnas que contienen solo valores nulos de una tabla? Supongamos que tengo una mesa. SnapshotDate CreationDate Country Region CloseDate Probability BookingAmount RevenueAmount SnapshotDate1 CreationDate1 CloseDate1 null null ...
¿Cómo calcula la IU web la memoria de almacenamiento (en la pestaña Ejecutores)?
Estoy tratando de entender cómo Spark 2.1.0 asigna memoria en los nodos. Supongamos que estoy comenzando un PySpark REPL local que le asigna 2 GB de memoria: $ pyspark --conf spark.driver.memory=2gSpark UI dice que hay956,6 MBasignado para la ...
ERROR yarn.ApplicationMaster: Excepción no detectada: java.util.concurrent.TimeoutException: El tiempo de espera expiró después de 100000 milisegundos [duplicado]
Esta pregunta ya tiene una respuesta aquí: ¿Por qué falla la unión con "java.util.concurrent.TimeoutException: Futures expiró después de [300 ...
Apache Spark resta días de la columna de marca de tiempo
Estoy usando Spark Dataset y tengo problemas para restar días de una columna de marca de tiempo. Me gustaría restar días de la columna de marca de tiempo y obtener una nueva columna con formato de fecha y hora completo. Ejemplo: 2017-09-22 ...
¿Cuánta cantidad aproximada da la mediana incorrecta en Spark (Scala)?
Tengo estos datos de prueba: val data = List( List(47.5335D), List(67.5335D), List(69.5335D), List(444.1235D), List(677.5335D) )Espero que la mediana sea 69.5335. Pero cuando trato de encontrar la mediana exacta con este ...
SPARK SQL falla si no hay una ruta de partición especificada disponible
Estoy usando Hive Metastore en EMR. Puedo consultar la tabla manualmente a través de HiveSQL. Pero cuando uso la misma tabla en Spark Job, diceLa ruta de entrada no existe: s3: // Causado por: org.apache.hadoop.mapred.InvalidInputException: la ...
Aplicar condición de filtro en el marco de datos creado a partir de JSON
Estoy trabajando en el marco de datos creado por JSON y luego quiero aplicar la condición de filtro sobre el marco de datos. val jsonStr = """{ "metadata": [{ "key": 84896, "value": 54 },{ "key": 1234, "value": 12 }]}""" val rdd = ...
Cómo hacer buenos ejemplos reproducibles de Apache Spark
He pasado bastante tiempo leyendo algunas preguntas con elpyspark [/questions/tagged/pyspark]ymarco de datos de chispa [/questions/tagged/spark-dataframe]etiquetas y muy a menudo encuentro que los carteles no proporcionan suficiente información ...