Resultados da pesquisa a pedido "apache-spark"

2 a resposta

Função de Coluna Personalizada Spark Build, função definida pelo usuário

Estou usando o Scala e quero criar minha própria função DataFrame. Por exemplo, quero tratar uma coluna como uma matriz, iterar por cada elemento e fazer um cálculo. Para começar, estou tentando implementar meu próprio método getMax. Portanto, ...

2 a resposta

Composição da função de linha do PySpark

Como um exemplo simplificado, tenho um quadro de dados "df" com as colunas "col1, col2" e quero calcular o máximo em linhas após aplicar uma função a cada coluna: def f(x): return (x+1) max_udf=udf(lambda x,y: max(x,y), ...

2 a resposta

Leia arquivos de texto inteiro de uma compactação no Spark

Eu tenho o seguinte problema: suponha que eu tenha um diretório que contém diretórios compactados que contêm vários arquivos, armazenados no HDFS. Eu quero criar um RDD que consiste em alguns objetos do tipo T, ou seja: context = new ...

2 a resposta

pyspark EOFError depois de chamar o mapa

Eu sou novo no spark & pyspark. Estou lendo um pequeno arquivo csv (~ 40k) em um dataframe. from pyspark.sql import functions as F df ...

1 a resposta

Spark scala: SELECT em um loop foreach retorna java.lang.NullPointerException

Eu preciso iterar sobre o conteúdo de um DF com várias instruções SELECT dentro de um loop foreach, escrevendo a saída em arquivos de texto. Qualquer instrução SELECT dentro do loop foreach retorna uma NullPointerException. Eu sou incapaz de ver ...

3 a resposta

Como atribuir e usar cabeçalhos de coluna no Spark?

Estou lendo um conjunto de dados como abaixo. f = sc.textFile("s3://test/abc.csv")Meu arquivo contém mais de 50 campos e desejo atribuir cabeçalhos de coluna para cada um dos campos para referência posteriormente no meu script. Como faço isso ...

8 a resposta

Como armazenar objetos personalizados no conjunto de dados?

De acordo comApresentando conjuntos de dados Spark [https://databricks.com/blog/2016/01/04/introducing-spark-datasets.html]: Como esperamos ansiosamente pelo Spark 2.0, planejamos algumas melhorias interessantes para conjuntos de dados, ...

2 a resposta

spark: Como fazer um dropDuplicates em um dataframe, mantendo a linha com o timestamp mais alto [duplicado]

Esta pergunta já tem uma resposta aqui: Encontre a linha máxima por grupo no Spark DataFrame [/questions/35218882/find-maximum-row-per-group-in-spark-dataframe] 2 respostas Eu tenho um caso de uso em que eu precisaria soltar linhas duplicadas de ...

1 a resposta

Conversão DataFrame para RDD [Map] em Scala

Eu quero converter uma matriz criada como: case class Student(name: String, age: Int) val dataFrame: DataFrame = sql.createDataFrame(sql.sparkContext.parallelize(List(Student("Torcuato", 27), Student("Rosalinda", 34))))Quando eu coleciono os ...

1 a resposta

Número de CPUs por tarefa no Spark

Eu não entendospark.task.cpus parâmetro. Parece-me que uma "tarefa" corresponde a um "encadeamento" ou "processo", se você desejar, dentro do executor. Suponha que eu defina "spark.task.cpus" como 2. Como um thread pode utilizar duas CPUs ...