Resultados de la búsqueda a petición "pyspark"

1 la respuesta

PySpark convierte una columna de tipo 'mapa' en varias columnas en un marco de datos

EntradaTengo una columnaParameters de tipomap de la forma: >>> from pyspark.sql import SQLContext >>> sqlContext = SQLContext(sc) >>> d = [{'Parameters': {'foo': '1', 'bar': '2', 'baz': 'aaa'}}] >>> df = sqlContext.createDataFrame(d) >>> ...

2 la respuesta

Evaluación PySpark

Estoy probando el siguiente código que agrega un número a cada fila en un RDD y devuelve una lista de RDD usando PySpark. from pyspark.context import SparkContext file = "file:///home/sree/code/scrap/sample.txt" sc = SparkContext('local', ...

1 la respuesta

PySpark: lea, asigne y reduzca desde un archivo de texto de registro multilínea con newAPIHadoopFile

Estoy intentando resolver un problema que es similar aesta publicación [https://stackoverflow.com/questions/31227363/creating-spark-data-structure-from-multiline-record] . Mis datos originales son un archivo de texto que contiene ...

2 la respuesta

obtener valor del marco de datos

En Scala puedo hacerget(#) ogetAs[Type](#) para obtener valores de un marco de datos. ¿Cómo debo hacerlo enpyspark? Tengo un DataFrame de dos columnas:item(string) ysalesNum(integers). hago ungroupby ymean para obtener una media de esos números ...

3 la respuesta

¿Cómo reemplazo un valor de cadena con un NULL en PySpark?

Quiero hacer algo como esto: df.replace('empty-value', None, 'NAME')Básicamente, quiero reemplazar algún valor con NULL. pero no acepta ninguno en esta función. ¿Cómo puedo hacer esto?

1 la respuesta

Multiplicación de Spark Matrix con Python

Estoy tratando de hacer una matriz de multiplicación usando Apache Spark y Python. Aquí están mis datos from pyspark.mllib.linalg.distributed import RowMatrixMi RDD de vectores rows_1 = sc.parallelize([[1, 2], [4, 5], [7, 8]]) rows_2 = ...

3 la respuesta

Filtrar la columna del marco de datos Pyspark con el valor Ninguno

Estoy tratando de filtrar un marco de datos PySpark que tieneNone como un valor de fila: df.select('dt_mvmt').distinct().collect() [Row(dt_mvmt=u'2016-03-27'), Row(dt_mvmt=u'2016-03-28'), Row(dt_mvmt=u'2016-03-29'), ...

2 la respuesta

Parámetros de ajuste para el modelo de factorización de matriz ALS pyspark.ml implícito a través de pyspark.ml CrossValidator

Estoy tratando de ajustar los parámetros de un modelo de factorización de matriz ALS que usa datos implícitos. Para esto, estoy tratando de usar pyspark.ml.tuning.CrossValidator para ejecutar una cuadrícula de parámetros y seleccionar el mejor ...

4 la respuesta

Comparar columnas en Pyspark

Estoy trabajando en un PySpark DataFrame con n columnas. Tengo un conjunto de m columnas (m <n) y mi tarea es elegir la columna con valores máximos. Por ejemplo: Entrada: PySpark DataFrame que contiene col_1 = [1,2,3], col_2 = [2,1,4], col_3 = ...

2 la respuesta

Impulsar spark.yarn.executor.memoryOverhead

Estoy tratando de ejecutar un trabajo (py) Spark en EMR que procesará una gran cantidad de datos. Actualmente mi trabajo falla con el siguiente mensaje de error: Reason: Container killed by YARN for exceeding memory limits. 5.5 GB of 5.5 ...