Resultados de la búsqueda a petición "apache-spark"

1 la respuesta

Retenga claves con valores nulos mientras escribe JSON en spark

Estoy tratando de escribir un archivo JSON usando spark. Hay algunas claves que tienennull como valor Estos se muestran muy bien en elDataSet, pero cuando escribo el archivo, se caen las claves. ¿Cómo me aseguro de que se conserven? código para ...

4 la respuesta

Instalación de SparkR

Tengo la última versión de R - 3.2.1. Ahora quiero instalar SparkR en R. Después de ejecutar: > install.packages("SparkR")Regresé: Installing package into ‘/home/user/R/x86_64-pc-linux-gnu-library/3.2’ (as ‘lib’ is unspecified) Warning in ...

2 la respuesta

Ejecución simultánea de trabajos en Spark

He usado datos de entrada con el siguiente formato: 0 1 2 3 4 5 … 14 Input Location: hdfs://localhost:9000/Input/datasourceHe usado el siguiente fragmento de código para guardar RDD como archivo de texto usando múltiples hilos: package ...

2 la respuesta

buscar más de 20 filas y mostrar el valor completo de la columna en spark-shell

estoy usandoCassandraSQLContext desde spark-shell a consultar datos de Cassandra. Por lo tanto, quiero saber dos cosas: cómo obtener más de 20 filas usandoCassandraSQLContext y segundo, ¿cómo mostrar Id el valor completo de la columna? Como puede ...

17 la respuesta

Importar pyspark en Python Shell

Esta es una copia de la pregunta de otra persona en otro foro que nunca fue respondida, así que pensé en volver a preguntarla aquí, ya que tengo el mismo problema. ...

1 la respuesta

spark 2.3.0, parquet 1.8.2: ¿no existen estadísticas para un campo binario en el archivo resultante de la escritura de chispa?

En la rama de chispa maestra: intenté escribir una sola columna con "a", "b", "c" en el archivo de parquetf1 scala> List("a", "b", "c").toDF("field1").coalesce(1).write.parquet("f1")Pero el archivo guardado no tiene estadísticas (min, max) $ ls ...

1 la respuesta

Obtenga el valor máximo para cada clave en un Spark RDD

¿Cuál es la mejor manera de devolver la fila máxima (valor) asociada con cada clave única en una chispa RDD? Estoy usando python y probé Math max, mapeo y reducción por claves y agregados. ¿Hay una manera eficiente de hacer esto? Posiblemente un ...

1 la respuesta

¿Cuál es la forma preferida de evitar las inyecciones de SQL en Spark-SQL (en Hive)

Asumir un SchemaRDDrdd con una mesa registradacustomer. Desea filtrar registros de acuerdo con una entrada del usuario. Una idea que puede tener para hacer esto es la siguiente: rdd.sqlContext.sql(s"SELECT * FROM customer WHERE ...

1 la respuesta

¿Quién puede dar una explicación clara para `combineByKey` en Spark?

Estoy aprendiendo chispa, pero no puedo entender esta funcióncombineByKey. >>> data = sc.parallelize([("A",1),("A",2),("B",1),("B",2),("C",1)] ) >>> data.combineByKey(lambda v : str(v)+"_", lambda c, v : c+"@"+str(v), lambda c1, c2 : ...

1 la respuesta

Error de gasoducto

Estoy tratando de ejecutar un modelo de regresión logística multinomial from pyspark.sql import SparkSession spark = SparkSession.builder.appName('prepare_data').getOrCreate() from pyspark.sql.types import * spark.sql("DROP TABLE IF EXISTS ...