Resultados de la búsqueda a petición "apache-spark"

1 la respuesta

Scala / Spark dataframes: encuentre el nombre de columna correspondiente al máximo

En Scala / Spark, tener un marco de datos: val dfIn = sqlContext.createDataFrame(Seq( ("r0", 0, 2, 3), ("r1", 1, 0, 0), ("r2", 0, 2, 2))).toDF("id", "c0", "c1", "c2")Me gustaría calcular una nueva columnamaxCol sosteniendo elnombrede la columna ...

3 la respuesta

Spark UDF para StructType / Row

Tengo una columna "StructType" en spark Dataframe que tiene una matriz y una cadena como subcampos. Me gustaría modificar la matriz y devolver la nueva columna del mismo tipo. ¿Puedo procesarlo con UDF? ¿O cuáles son las alternativas? import ...

3 la respuesta

PySpark, superior para DataFrame

Lo que quiero hacer es un marco de datos, tomar los n elementos principales de acuerdo con alguna columna especificada. La parte superior (self, num) en RDD API es exactamente lo que quiero. Me pregunto si hay una API equivalente en el mundo ...

1 la respuesta

Crear / acceder a un marco de datos dentro de la transformación de otro marco de datos

Estoy adaptando un código existente para usar Spark. Tengo múltiples marcos de datos que contienen diferentes conjuntos de datos. Al transformar mi marco de datos principal (o mi conjunto de datos principal), necesito usar datos de los otros ...

3 la respuesta

Ejecutar un recuento de palabras de Spark en IntelliJ

He pasado horas revisando videos y tutoriales de You Tube tratando de entender cómo ejecuto un programa de conteo de palabras para Spark, en Scala, y lo convierto en un archivo jar. Me estoy confundiendo por completo ahora. Ejecuté Hello World y ...

6 la respuesta

Cómo crear SparkSession a partir de SparkContext existente

Tengo una aplicación Spark que usa la nueva API Spark 2.0 conSparkSession. Estoy construyendo esta aplicación sobre la otra aplicación que está usandoSparkContext. Me gustaria pasarSparkContext a mi aplicación e inicializarSparkSession utilizando ...

3 la respuesta

¿Cómo asignar características de la salida de un VectorAssembler a los nombres de columna en Spark ML?

Estoy tratando de ejecutar una regresión lineal en PySpark y quiero crear una tabla que contenga estadísticas resumidas como coeficientes, valores P y valores t para cada columna de mi conjunto de datos. Sin embargo, para entrenar un modelo de ...

2 la respuesta

spark-submit no puede detectar el módulo instalado en pip

Tengo un código de Python que tiene las siguientes dependencias de terceros: import boto3 from warcio.archiveiterator import ArchiveIterator from warcio.recordloader import ArchiveLoadFailed import requests import botocore from requests_file ...

8 la respuesta

Spark 2.1: error al crear instancias de HiveSessionState

Con una nueva instalación de Spark 2.1, recibo un error al ejecutar el comando pyspark. Traceback (most recent call last): File "/usr/local/spark/python/pyspark/shell.py", line 43, in <module> spark = SparkSession.builder\ File ...

1 la respuesta

Habilitar mayúsculas y minúsculas para spark.sql a nivel mundial

La opciónspark.sql.caseSensitive controla si los nombres de columna, etc., deben ser sensibles a mayúsculas o no. Se puede configurar p. por spark_session.sql('set spark.sql.caseSensitive=true')y esfalse por defecto No parece posible ...