Resultados de la búsqueda a petición "pyspark"
Columnas divididas Pyspark
from pyspark.sql import Row, functions as F row = Row("UK_1","UK_2","Date","Cat",'Combined') agg = '' agg = 'Cat' tdf = (sc.parallelize ([ row(1,1,'12/10/2016',"A",'Water^World'), row(1,2,None,'A','Sea^Born'), ...
Error al pasar datos de un Dataframe a un ML VectorIndexerModel existente
Tengo un Dataframe que quiero usar para la predicción con un modelo existente. Recibo un error cuando uso el método de transformación de mi modelo. Así es como proceso los datos de entrenamiento. forecast.printSchema()El esquema de mi ...
Sirva predicciones en tiempo real con el modelo entrenado Spark ML [duplicado]
Esta pregunta ya tiene una respuesta aquí: ¿Cómo servir un modelo Spark MLlib? [/questions/40533582/how-to-serve-a-spark-mllib-model] 3 respuestasActualmente estamos probando un motor de predicción basado en la implementación de LDA por Spark en ...
Mediana / cuantiles dentro del grupo PySpark
Me gustaría calcular cuantiles grupales en un marco de datos Spark (usando PySpark). Un resultado aproximado o exacto estaría bien. Prefiero una solución que pueda usar dentro del contexto degroupBy / agg, para poder mezclarlo con otras funciones ...
Cree un mapa para llamar al POJO para cada fila de Spark Dataframe
Construí un modelo H2O en R y guardé el código POJO. Quiero puntuar archivos de parquet en hdfs usando el POJO pero no estoy seguro de cómo hacerlo. Planeo leer los archivos de parquet en chispa (scala / SparkR / PySpark) y marcarlos allí. ...
pyspark: el sistema no puede encontrar la ruta especificada
Acabo de instalar pyspark 2.2.0 usando conda (usando python v3.6 en windows 7 64bit, java v1.8) $conda install pysparkSe descargó y pareció instalarse correctamente sin errores. Ahora cuando corropyspark en la línea de comando, solo me dice ...
Spark Container & Executor OOMs durante `reduceByKey`
Estoy ejecutando un trabajo de Spark en el EMR de Amazon en modo cliente con YARN, usando pyspark, para procesar datos de dos archivos de entrada (un total de 200 GB) de tamaño. El trabajo une los datos juntos (usandoreduceByKey), hace algunos ...
Las bibliotecas necesarias para usar Spark de Python (PySpark)
Estoy usando PySpark de Django y me conecto a un nodo maestro de chispas usando SparkSession para ejecutar un trabajo en el clúster. Mi pregunta es: ¿necesito una instalación completa de spark en mi máquina local? Toda la documentación me hace ...
Cómo extraer un elemento de una matriz en pyspark
Tengo un marco de datos con el siguiente tipo col1|col2|col3|col4 xxxx|yyyy|zzzz|[1111],[2222]Quiero que mi salida sea del siguiente tipo col1|col2|col3|col4|col5 xxxx|yyyy|zzzz|1111|2222Mi col4 es una matriz y quiero convertirlo en una columna ...
Spark - ¿Ventana con recursividad? - Propagación condicional de valores entre filas
Tengo el siguiente marco de datos que muestra los ingresos de las compras. +-------+--------+-------+ |user_id|visit_id|revenue| +-------+--------+-------+ | 1| 1| 0| | 1| 2| 0| | 1| 3| 0| | 1| 4| 100| | 1| 5| 0| | 1| 6| 0| | 1| 7| 200| | 1| 8| ...