Resultados de la búsqueda a petición "pyspark-sql"

2 la respuesta

Cómo emitir DataFrame con columnas vectoriales en RDD

Tengo un DataFrame (llamadodf1 en Pyspark en el que una de las columnas es de tipoDenseVector. Este es el esquema del marco de datos. DataFrame[prediction: double, probability: vector, label: double]Intento convertirlo en un RDD usandodf1.rdd ...

1 la respuesta

pyspark mysql jdbc load Se produjo un error al llamar a o23.load No hay controlador adecuado

Yo uso docker imagesecuencia / chispa [https://hub.docker.com/r/sequenceiq/spark/]en mi Mac para estudiar estos ejemplos de chispa [http://spark.apache.org/examples.html], durante el proceso de estudio, actualizo la chispa dentro de esa imagen a ...

3 la respuesta

Trabajando con jdbc jar en pyspark

Necesito leer de una base de datos sql de postgres en pyspark. Sé que esto se ha preguntado antes, comoaquí [https://stackoverflow.com/questions/29669420/not-able-to-connect-to-postgres-using-jdbc-in-pyspark-shell] , ...

2 la respuesta

Cómo almacenar en caché un marco de datos de Spark y hacer referencia a él en otro script

¿Es posible almacenar en caché un marco de datos y luego hacer referencia (consultarlo) en otro script? ... Mi objetivo es el siguiente: En el script 1, cree un marco de datos (df)Ejecute el script 1 y la memoria caché dfEn el script 2, consulta ...

3 la respuesta

Pyspark DataFrame UDF en columna de texto

Estoy tratando de hacer una limpieza de texto NLP de algunas columnas Unicode en un PySpark DataFrame. He intentado en Spark 1.3, 1.5 y 1.6 y parece que no puedo hacer que las cosas funcionen para mí. También he intentado usar Python 2.7 y Python ...

4 la respuesta

¿Cómo crear un DataFrame a partir de filas mientras se conserva el esquema existente?

Si llamo mapa omapPartition y mi función recibe filas de PySpark, ¿cuál es la forma natural de crear un PySpark local o un Pandas DataFrame? ¿Algo que combine las filas y conserve el esquema? Actualmente hago algo como: def combine(partition): ...

10 la respuesta

¿Cómo cambiar los nombres de columna del marco de datos en pyspark?

Vengo de antecedentes de pandas y estoy acostumbrado a leer datos de archivos CSV en un marco de datos y luego simplemente cambiar los nombres de columna a algo útil usando el comando simple: df.columns = new_column_name_listSin embargo, lo ...

1 la respuesta

PySpark: tome el promedio de una columna después de usar la función de filtro

Estoy usando el siguiente código para obtener la edad promedio de las personas cuyo salario es mayor que algún umbral. dataframe.filter(df['salary'] > 100000).agg({"avg": "age"})la edad de la columna es numérica (flotante) pero todavía recibo ...