Resultados de la búsqueda a petición "pyspark"

1 la respuesta

Encajar un marco de datos en randomForest pyspark

tengo unDataFrame que se parece a esto: +--------------------+------------------+ | features| labels | +--------------------+------------------+ |[-0.38475, 0.568...]| label1 | |[0.645734, 0.699...]| label2 | | ..... | ... ...

2 la respuesta

pyspark: cuenta distinta sobre una ventana

Acabo de intentar hacer un countDistinct sobre una ventana y obtuve este error: AnalysisException: u'Distinct window functions are not supported: count(distinct color#1926)¿Hay alguna manera de hacer un recuento distinto sobre una ventana ...

1 la respuesta

Spark distancia coseno entre filas usando Dataframe

Tengo que calcular una distancia cosenoidal entre cada fila, pero no tengo idea de cómo hacerlo usando Spark API Dataframes con elegancia. La idea es calcular similitudes para cada fila (elementos) y tomar las 10 similitudes ...

1 la respuesta

Inicialice PySpark para predefinir la variable 'sc' de SparkContext

Al usar PySpark, me gustaría que se inicialice un SparkContext (en modo cliente de hilo) al crear un nuevo cuaderno. Los siguientes tutoriales describen cómo hacer esto en versiones anteriores de ipython / jupyter ...

1 la respuesta

Obtener etiquetas de las etapas StringIndexer dentro de la tubería en Spark (pyspark)

estoy usandoSpark ypyspark y tengo unpipeline configurar con un montón deStringIndexer objetos, que uso para codificar las columnas de cadena a columnas de índices: indexers = [StringIndexer(inputCol=column, outputCol=column ...

3 la respuesta

¿Por qué mi pyspark simplemente se cuelga como ACEPTADO en hilo cuando lo lanzo?

Acabo de girar un nuevoAWS instancia enLinux. E instalépyspark en eso. Tienespark 1.6. Estoy corriendopyspark conyarn. Cuando hago el comandopyspark en la terminal, se inicia inicialmente, pero luego recibo el mensaje: dd/mm/YY HH:MM:SS INFO ...

2 la respuesta

pyspark importar módulo definido por el usuario o archivos .py

Construí unmódulo de python [https://docs.python.org/2/tutorial/modules.html]y quiero importarlo en mi aplicación pyspark. La estructura de mi directorio de paquetes es: wesam/ |-- data.py `-- __init__.pyUn simpleimport wesam en la parte ...

1 la respuesta

¿Cómo enumerar todas las tablas en la base de datos usando Spark SQL?

Tengo una conexión SparkSQL a una base de datos externa: from pyspark.sql import SparkSession spark = SparkSession \ .builder \ .appName("Python Spark SQL basic example") \ .getOrCreate()Si sé el nombre de una tabla, es fácil de ...

2 la respuesta

Función de ventana Spark SQL con condición compleja

Esto es probablemente más fácil de explicar a través del ejemplo. Supongamos que tengo un DataFrame de inicios de sesión de usuario en un sitio web, por ejemplo: scala> df.show(5) +----------------+----------+ | ...

3 la respuesta

Acceso a elementos de WrappedArray

Tengo un marco de datos de chispa y aquí está el esquema: |-- eid: long (nullable = true) |-- age: long (nullable = true) |-- sex: long (nullable = true) |-- father: array (nullable = true) | |-- element: array (containsNull = true) | | |-- ...