Resultados de la búsqueda a petición "pyspark"

3 la respuesta

Uso del objeto Python personalizado en Pyspark UDF

Al ejecutar el siguiente fragmento de código PySpark: nlp = NLPFunctions() def parse_ingredients(ingredient_lines): parsed_ingredients = nlp.getingredients_bulk(ingredient_lines)[0] return list(chain.from_iterable(parsed_ingredients)) ...

1 la respuesta

¿Cómo hacer predicciones con Sklearn Model dentro de Spark?

He entrenado un modelo en python usando sklearn. ¿Cómo podemos usar el mismo modelo para cargar en Spark y generar predicciones en una chispa RDD?

1 la respuesta

Desvincular en spark-sql / pyspark

Tengo un enunciado del problema en el que quiero desenredar la tabla en spark-sql / pyspark. He revisado la documentación y pude ver que solo hay soporte para pivote, pero hasta ahora no hay soporte para un-pivot. ¿Hay alguna manera de lograr ...

2 la respuesta

Filtro de condición múltiple en el marco de datos

¿Alguien puede explicarme por qué obtengo resultados diferentes para estas 2 expresiones? Estoy tratando de filtrar entre 2 fechas: df.filter("act_date <='2017-04-01'" and "act_date ...

1 la respuesta

Python / pyspark data frame reorganizar columnas

Tengo un marco de datos en python / pyspark con columnasid time city zip y así...... Ahora agregué una nueva columnaname a este marco de datos. Ahora tengo que organizar las columnas de tal manera que elname la columna viene despuésid He hecho ...

1 la respuesta

WARN cluster.YarnScheduler: el trabajo inicial no ha aceptado ningún recurso

Cualquier trabajo de chispa que ejecute fallará con el siguiente mensaje de error 17/06/16 11:10:43 WARN cluster.YarnScheduler: El trabajo inicial no ha aceptado ningún recurso; verifique la interfaz de usuario de su clúster para asegurarse de ...

3 la respuesta

¿Cómo asignar características de la salida de un VectorAssembler a los nombres de columna en Spark ML?

Estoy tratando de ejecutar una regresión lineal en PySpark y quiero crear una tabla que contenga estadísticas resumidas como coeficientes, valores P y valores t para cada columna de mi conjunto de datos. Sin embargo, para entrenar un modelo de ...

3 la respuesta

PySpark, superior para DataFrame

Lo que quiero hacer es un marco de datos, tomar los n elementos principales de acuerdo con alguna columna especificada. La parte superior (self, num) en RDD API es exactamente lo que quiero. Me pregunto si hay una API equivalente en el mundo ...

2 la respuesta

spark-submit no puede detectar el módulo instalado en pip

Tengo un código de Python que tiene las siguientes dependencias de terceros: import boto3 from warcio.archiveiterator import ArchiveIterator from warcio.recordloader import ArchiveLoadFailed import requests import botocore from requests_file ...

1 la respuesta

Habilitar mayúsculas y minúsculas para spark.sql a nivel mundial

La opciónspark.sql.caseSensitive controla si los nombres de columna, etc., deben ser sensibles a mayúsculas o no. Se puede configurar p. por spark_session.sql('set spark.sql.caseSensitive=true')y esfalse por defecto No parece posible ...