Resultados de la búsqueda a petición "pyspark"
Uso del objeto Python personalizado en Pyspark UDF
Al ejecutar el siguiente fragmento de código PySpark: nlp = NLPFunctions() def parse_ingredients(ingredient_lines): parsed_ingredients = nlp.getingredients_bulk(ingredient_lines)[0] return list(chain.from_iterable(parsed_ingredients)) ...
¿Cómo hacer predicciones con Sklearn Model dentro de Spark?
He entrenado un modelo en python usando sklearn. ¿Cómo podemos usar el mismo modelo para cargar en Spark y generar predicciones en una chispa RDD?
Desvincular en spark-sql / pyspark
Tengo un enunciado del problema en el que quiero desenredar la tabla en spark-sql / pyspark. He revisado la documentación y pude ver que solo hay soporte para pivote, pero hasta ahora no hay soporte para un-pivot. ¿Hay alguna manera de lograr ...
Filtro de condición múltiple en el marco de datos
¿Alguien puede explicarme por qué obtengo resultados diferentes para estas 2 expresiones? Estoy tratando de filtrar entre 2 fechas: df.filter("act_date <='2017-04-01'" and "act_date ...
Python / pyspark data frame reorganizar columnas
Tengo un marco de datos en python / pyspark con columnasid time city zip y así...... Ahora agregué una nueva columnaname a este marco de datos. Ahora tengo que organizar las columnas de tal manera que elname la columna viene despuésid He hecho ...
WARN cluster.YarnScheduler: el trabajo inicial no ha aceptado ningún recurso
Cualquier trabajo de chispa que ejecute fallará con el siguiente mensaje de error 17/06/16 11:10:43 WARN cluster.YarnScheduler: El trabajo inicial no ha aceptado ningún recurso; verifique la interfaz de usuario de su clúster para asegurarse de ...
¿Cómo asignar características de la salida de un VectorAssembler a los nombres de columna en Spark ML?
Estoy tratando de ejecutar una regresión lineal en PySpark y quiero crear una tabla que contenga estadísticas resumidas como coeficientes, valores P y valores t para cada columna de mi conjunto de datos. Sin embargo, para entrenar un modelo de ...
PySpark, superior para DataFrame
Lo que quiero hacer es un marco de datos, tomar los n elementos principales de acuerdo con alguna columna especificada. La parte superior (self, num) en RDD API es exactamente lo que quiero. Me pregunto si hay una API equivalente en el mundo ...
spark-submit no puede detectar el módulo instalado en pip
Tengo un código de Python que tiene las siguientes dependencias de terceros: import boto3 from warcio.archiveiterator import ArchiveIterator from warcio.recordloader import ArchiveLoadFailed import requests import botocore from requests_file ...
Habilitar mayúsculas y minúsculas para spark.sql a nivel mundial
La opciónspark.sql.caseSensitive controla si los nombres de columna, etc., deben ser sensibles a mayúsculas o no. Se puede configurar p. por spark_session.sql('set spark.sql.caseSensitive=true')y esfalse por defecto No parece posible ...