Resultados de la búsqueda a petición "apache-spark"

1 la respuesta

Los árboles impulsados por el gradiente de Spark ML no usan todos los nodos

Estoy usando elSpark ML GBTClassifier [https://spark.apache.org/docs/2.2.0/api/python/pyspark.ml.html#pyspark.ml.classification.GBTClassifier] enpyspark para entrenar un modelo de clasificación binaria en un marco de datos con ~ 400k filas y ~ 9k ...

2 la respuesta

Procesar todas las columnas / toda la fila en un Spark UDF

Para un marco de datos que contiene una combinación de cadenas y tipos de datos numéricos, el objetivo es crear un nuevofeatures columna que es unaminhash de todos ellos Si bien esto podría hacerse realizando unadataframe.toRDD es costoso ...

2 la respuesta

Generación de números aleatorios en PySpark

Comencemos con una función simple que siempre devuelve un entero aleatorio: import numpy as np def f(x): return np.random.randint(1000)y un RDD lleno de ceros y mapeado usandof: rdd = sc.parallelize([0] * 10).map(f)Como el RDD anterior no ...

3 la respuesta

Cómo escribir el RDD resultante en un archivo csv en Spark python

Tengo un RDD resultantelabelsAndPredictions = testData.map(lambda lp: lp.label).zip(predictions). Esto tiene salida en este formato: [(0.0, 0.08482142857142858), (0.0, 0.11442786069651742),.....]Lo que quiero es crear un archivo CSV con una ...

3 la respuesta

Spark: escribir DataFrame como JSON comprimido

Apache Spark'sDataFrameReader.json() puede manejar archivos JSONlines comprimidos automáticamente pero no parece haber una manera de obtenerDataFrameWriter.json() para escribir archivos JSONlines comprimidos. La red de E / S adicional es muy ...

1 la respuesta

¿Cómo construir un gráfico a partir de tuplas en Graphx y etiquetar los nodos después?

Se puede encontrar algo de contextoaquí [https://stackoverflow.com/questions/31928133/how-to-create-a-graph-from-arrayany-any-using-graph-fromedgetuples/31929807?noredirect=1#comment51792711_31929807] , la idea es que he creado un gráfico a ...

7 la respuesta

Cómo exportar datos de Spark SQL a CSV

Este comando funciona con HiveQL: insert overwrite directory '/data/home.csv' select * from testtable;Pero con Spark SQL obtengo un error con unorg.apache.spark.sql.hive.HiveQl seguimiento de pila: java.lang.RuntimeException: Unsupported ...

5 la respuesta

¿Cómo conectarse a un Hive metastore programáticamente en SparkSQL?

Estoy usando HiveContext con SparkSQL y estoy tratando de conectarme a un Hive metastore remoto, la única forma de configurar el hive metastore es incluir hive-site.xml en el classpath (o copiarlo a / etc / spark / conf /). ¿Hay alguna manera de ...

3 la respuesta

spark submit java.lang.ClassNotFoundException

Estoy tratando de ejecutar mi propia aplicación de chispa pero cuando estoy usando el comando de envío de chispa me sale este error: Users/_name_here/dev/sp/target/scala-2.10/sp_2.10-0.1-SNAPSHOT.jar ...

1 la respuesta

Formato de archivo del modelo Apache Spark MLlib

Los algoritmos Apache Spark MLlib (por ejemplo, árboles de decisión) guardan el modelo en una ubicación (por ejemplo,myModelPath) donde crea dos directorios, a saber.myModelPath/data ymyModelPath/metadata. Hay varios archivos en estas rutas y ...