Resultados de la búsqueda a petición "apache-spark"

1 la respuesta

Generación de código de etapa completa en Spark 2.0

Escuché sobreWhole-Stage Code Generation para sql para optimizar consultas. mediantep539-neumann.pdf [http://www.vldb.org/pvldb/vol4/p539-neumann.pdf] & ...

1 la respuesta

Cómo hacer operaciones matemáticas con dos columnas en el marco de datos usando pyspark

Tengo un marco de datos con tres columnas "x", "y" y "z" x y z bn 12452 221 mb 14521 330 pl 12563 160 lo 22516 142Necesito crear otra columna derivada de esta fórmula. (m = z / y+z)Entonces, los nuevos marcos de datos deberían verse así: x y z ...

3 la respuesta

PySpark en el portátil iPython aumenta Py4JJavaError cuando se utiliza count () y first ()

Estoy usando PySpark (v.2.1.0) en el cuaderno de iPython (python v.3.6) sobre virtualenv en mi Mac (Sierra 10.12.3 Beta). Lancé el portátil iPython disparando esto en la Terminal. PYSPARK_PYTHON=python3 ...

2 la respuesta

Cómo convertir JavaPairInputDStream en DataSet / DataFrame en Spark

Estoy tratando de recibir datos de transmisión dekafka. En este proceso, puedo recibir y almacenar los datos de transmisión enJavaPairInputDStream. Ahora necesito analizar estos datos sin almacenarlos en ninguna base de datos, así que quiero ...

5 la respuesta

Cómo encontrar la mediana exacta para datos agrupados en Spark

Tengo un requisito para calcular la mediana exacta en el conjunto de datos agrupados del tipo de datos Doble en Spark usando Scala. Es diferente de la consulta similar:Encuentre la mediana en spark SQL para múltiples columnas de doble tipo de ...

1 la respuesta

Leyendo el gráfico del archivo

Buscando ejecutar un ejemplo GraphX en mi máquina Windows usando Spark-Shell desde la instalación de SparklyR de Hadoop / Spark. Puedo iniciar el shell desde el directorio de instalación aquí ...

2 la respuesta

¿Cómo leer recursivamente archivos Hadoop desde el directorio usando Spark?

Dentro del directorio dado tengo muchas carpetas diferentes y dentro de cada carpeta tengo archivos Hadoop (part_001, etc.) directory -> folder1 -> part_001... -> part_002... -> folder2 -> part_001... ... Dado el directorio, ¿cómo puedo leer ...

1 la respuesta

¿Cómo encontrar la media de las columnas vectoriales agrupadas en Spark SQL?

He creado unRelationalGroupedDataset llamandoinstances.groupBy(instances.col("property_name")): val x = instances.groupBy(instances.col("property_name"))¿Cómo compongo unfunción agregada definida por el ...

2 la respuesta

¿Cómo especificar el dialecto sql al crear un marco de datos de chispa desde JDBC?

Tengo problemas para leer datos a través de JDBC personalizado con Spark. ¿Cómo haría para anular el dialecto sql inferido a través de la URL de jdbc? La base de datos en cuestión es vitess ...

1 la respuesta

¿Cómo usar DataFrame.explode con un UDF personalizado para dividir una cadena en subcadenas?

Yo uso Spark1,5. Tengo un DataFrameA_DF como sigue: +--------------------+--------------------+ | id| interactions| +--------------------+--------------------+ | id1 |30439831,30447866...| | id2 |37597858,34499875...| | id3 ...