Resultados de la búsqueda a petición "pyspark"

1 la respuesta

¿Funciona el pushdown de predicado de chispa con JDBC?

De acuerdo aesta [https://databricks.com/blog/2015/02/17/introducing-dataframes-in-spark-for-large-scale-data-science.html] Catalyst aplica optimizaciones lógicas como el pushdown de predicados. El optimizador puede insertar predicados de filtro ...

2 la respuesta

Spark DataFrame: cálculo de la media en filas (o cualquier operación agregada)

Tengo un Spark DataFrame cargado en la memoria, y quiero tomar la media (o cualquier operación agregada) sobre las columnas. ¿Como podría hacerlo? (Ennumpy, esto se conoce como realizar una operación sobreaxis=1) Si uno calculara la media del ...

3 la respuesta

Acceso a Spark desde la aplicación Flask

Escribí una aplicación Flask simple para pasar algunos datos a Spark. El script funciona en IPython Notebook, pero no cuando intento ejecutarlo en su propio servidor. No creo que el contexto de Spark se esté ejecutando dentro del script. ¿Cómo ...

3 la respuesta

¿Cómo convierto un RDD con una columna SparseVector en un DataFrame con una columna como Vector?

Yo tengo unRDDcon una tupla de valores (String, SparseVector) y quiero crear un Marco de datosutilizando laRDD. Para obtener una (etiqueta: cadena, características: vector)Marco de datoscual es el esquema requerido por la mayoría de las ...

5 la respuesta

PySpark DataFrames: ¿forma de enumerar sin convertir a Pandas?

Tengo un muy grandepyspark.sql.dataframe.DataFramellamado df. Necesito alguna forma de enumerar registros, por lo tanto, poder acceder al registro con cierto índice. (o seleccione un grupo de registros con rango de índices) En pandas, podría ...

1 la respuesta

Crear Spark DataFrame. No se puede inferir el esquema para el tipo: <type 'float'>

¿Podría alguien ayudarme a resolver este problema que tengo con Spark DataFrame? Cuando lo hagomyFloatRDD.toDF() Me sale un error: TypeError: no se puede inferir el esquema para el tipo: escriba 'float' No entiendo porque ...

2 la respuesta

Convierta un RDD a iterable: PySpark?

Tengo un RDD que estoy creando cargando un archivo de texto y preprocesándolo. No quiero recopilarlo y guardarlo en el disco o la memoria (datos completos), sino que quiero pasarlo a alguna otra función en Python que consuma los datos uno tras ...

3 la respuesta

¿Cómo agregar una columna constante en un Spark DataFrame?

Quiero agregar una columna en unDataFrame con algún valor arbitrario (que es lo mismo para cada fila). Me sale un error cuando usowithColumn como sigue: dt.withColumn('new_column', ...

1 la respuesta

El objeto 'PipelinedRDD' no tiene el atributo 'toDF' en PySpark

Estoy tratando de cargar un archivo SVM y convertirlo en unDataFrame entonces puedo usar el módulo ML (Pipeline ML) de Spark. Acabo de instalar un Spark 1.5.0 nuevo en un Ubuntu 14.04 (nospark-env.sh configurado). Mimy_script.py es: from ...

2 la respuesta

¿Cómo puedo cambiar la configuración de SparkContext.sparkUser () (en pyspark)?

Soy nuevo conSpark ypyspark. Yo uso pyspark, después de mirdd procesamiento, intenté guardarlo enhdfs utilizando lasaveAsTextfile() función. Pero me sale un 'Permiso denegado'mensaje de error porque pyspark intenta escribirhdfs utilizando mi ...