Resultados de la búsqueda a petición "pyspark"
PySpark convierte una columna de tipo 'mapa' en varias columnas en un marco de datos
EntradaTengo una columnaParameters de tipomap de la forma: >>> from pyspark.sql import SQLContext >>> sqlContext = SQLContext(sc) >>> d = [{'Parameters': {'foo': '1', 'bar': '2', 'baz': 'aaa'}}] >>> df = sqlContext.createDataFrame(d) >>> ...
Evaluación PySpark
Estoy probando el siguiente código que agrega un número a cada fila en un RDD y devuelve una lista de RDD usando PySpark. from pyspark.context import SparkContext file = "file:///home/sree/code/scrap/sample.txt" sc = SparkContext('local', ...
PySpark: lea, asigne y reduzca desde un archivo de texto de registro multilínea con newAPIHadoopFile
Estoy intentando resolver un problema que es similar aesta publicación [https://stackoverflow.com/questions/31227363/creating-spark-data-structure-from-multiline-record] . Mis datos originales son un archivo de texto que contiene ...
obtener valor del marco de datos
En Scala puedo hacerget(#) ogetAs[Type](#) para obtener valores de un marco de datos. ¿Cómo debo hacerlo enpyspark? Tengo un DataFrame de dos columnas:item(string) ysalesNum(integers). hago ungroupby ymean para obtener una media de esos números ...
¿Cómo reemplazo un valor de cadena con un NULL en PySpark?
Quiero hacer algo como esto: df.replace('empty-value', None, 'NAME')Básicamente, quiero reemplazar algún valor con NULL. pero no acepta ninguno en esta función. ¿Cómo puedo hacer esto?
Multiplicación de Spark Matrix con Python
Estoy tratando de hacer una matriz de multiplicación usando Apache Spark y Python. Aquí están mis datos from pyspark.mllib.linalg.distributed import RowMatrixMi RDD de vectores rows_1 = sc.parallelize([[1, 2], [4, 5], [7, 8]]) rows_2 = ...
Filtrar la columna del marco de datos Pyspark con el valor Ninguno
Estoy tratando de filtrar un marco de datos PySpark que tieneNone como un valor de fila: df.select('dt_mvmt').distinct().collect() [Row(dt_mvmt=u'2016-03-27'), Row(dt_mvmt=u'2016-03-28'), Row(dt_mvmt=u'2016-03-29'), ...
Parámetros de ajuste para el modelo de factorización de matriz ALS pyspark.ml implícito a través de pyspark.ml CrossValidator
Estoy tratando de ajustar los parámetros de un modelo de factorización de matriz ALS que usa datos implícitos. Para esto, estoy tratando de usar pyspark.ml.tuning.CrossValidator para ejecutar una cuadrícula de parámetros y seleccionar el mejor ...
Comparar columnas en Pyspark
Estoy trabajando en un PySpark DataFrame con n columnas. Tengo un conjunto de m columnas (m <n) y mi tarea es elegir la columna con valores máximos. Por ejemplo: Entrada: PySpark DataFrame que contiene col_1 = [1,2,3], col_2 = [2,1,4], col_3 = ...
Impulsar spark.yarn.executor.memoryOverhead
Estoy tratando de ejecutar un trabajo (py) Spark en EMR que procesará una gran cantidad de datos. Actualmente mi trabajo falla con el siguiente mensaje de error: Reason: Container killed by YARN for exceeding memory limits. 5.5 GB of 5.5 ...