Resultados de la búsqueda a petición "apache-spark"
Los árboles impulsados por el gradiente de Spark ML no usan todos los nodos
Estoy usando elSpark ML GBTClassifier [https://spark.apache.org/docs/2.2.0/api/python/pyspark.ml.html#pyspark.ml.classification.GBTClassifier] enpyspark para entrenar un modelo de clasificación binaria en un marco de datos con ~ 400k filas y ~ 9k ...
Procesar todas las columnas / toda la fila en un Spark UDF
Para un marco de datos que contiene una combinación de cadenas y tipos de datos numéricos, el objetivo es crear un nuevofeatures columna que es unaminhash de todos ellos Si bien esto podría hacerse realizando unadataframe.toRDD es costoso ...
Generación de números aleatorios en PySpark
Comencemos con una función simple que siempre devuelve un entero aleatorio: import numpy as np def f(x): return np.random.randint(1000)y un RDD lleno de ceros y mapeado usandof: rdd = sc.parallelize([0] * 10).map(f)Como el RDD anterior no ...
Cómo escribir el RDD resultante en un archivo csv en Spark python
Tengo un RDD resultantelabelsAndPredictions = testData.map(lambda lp: lp.label).zip(predictions). Esto tiene salida en este formato: [(0.0, 0.08482142857142858), (0.0, 0.11442786069651742),.....]Lo que quiero es crear un archivo CSV con una ...
Spark: escribir DataFrame como JSON comprimido
Apache Spark'sDataFrameReader.json() puede manejar archivos JSONlines comprimidos automáticamente pero no parece haber una manera de obtenerDataFrameWriter.json() para escribir archivos JSONlines comprimidos. La red de E / S adicional es muy ...
¿Cómo construir un gráfico a partir de tuplas en Graphx y etiquetar los nodos después?
Se puede encontrar algo de contextoaquí [https://stackoverflow.com/questions/31928133/how-to-create-a-graph-from-arrayany-any-using-graph-fromedgetuples/31929807?noredirect=1#comment51792711_31929807] , la idea es que he creado un gráfico a ...
Cómo exportar datos de Spark SQL a CSV
Este comando funciona con HiveQL: insert overwrite directory '/data/home.csv' select * from testtable;Pero con Spark SQL obtengo un error con unorg.apache.spark.sql.hive.HiveQl seguimiento de pila: java.lang.RuntimeException: Unsupported ...
¿Cómo conectarse a un Hive metastore programáticamente en SparkSQL?
Estoy usando HiveContext con SparkSQL y estoy tratando de conectarme a un Hive metastore remoto, la única forma de configurar el hive metastore es incluir hive-site.xml en el classpath (o copiarlo a / etc / spark / conf /). ¿Hay alguna manera de ...
spark submit java.lang.ClassNotFoundException
Estoy tratando de ejecutar mi propia aplicación de chispa pero cuando estoy usando el comando de envío de chispa me sale este error: Users/_name_here/dev/sp/target/scala-2.10/sp_2.10-0.1-SNAPSHOT.jar ...
Formato de archivo del modelo Apache Spark MLlib
Los algoritmos Apache Spark MLlib (por ejemplo, árboles de decisión) guardan el modelo en una ubicación (por ejemplo,myModelPath) donde crea dos directorios, a saber.myModelPath/data ymyModelPath/metadata. Hay varios archivos en estas rutas y ...