Resultados da pesquisa a pedido "apache-spark"
Função de Coluna Personalizada Spark Build, função definida pelo usuário
Estou usando o Scala e quero criar minha própria função DataFrame. Por exemplo, quero tratar uma coluna como uma matriz, iterar por cada elemento e fazer um cálculo. Para começar, estou tentando implementar meu próprio método getMax. Portanto, ...
Composição da função de linha do PySpark
Como um exemplo simplificado, tenho um quadro de dados "df" com as colunas "col1, col2" e quero calcular o máximo em linhas após aplicar uma função a cada coluna: def f(x): return (x+1) max_udf=udf(lambda x,y: max(x,y), ...
Leia arquivos de texto inteiro de uma compactação no Spark
Eu tenho o seguinte problema: suponha que eu tenha um diretório que contém diretórios compactados que contêm vários arquivos, armazenados no HDFS. Eu quero criar um RDD que consiste em alguns objetos do tipo T, ou seja: context = new ...
pyspark EOFError depois de chamar o mapa
Eu sou novo no spark & pyspark. Estou lendo um pequeno arquivo csv (~ 40k) em um dataframe. from pyspark.sql import functions as F df ...
Spark scala: SELECT em um loop foreach retorna java.lang.NullPointerException
Eu preciso iterar sobre o conteúdo de um DF com várias instruções SELECT dentro de um loop foreach, escrevendo a saída em arquivos de texto. Qualquer instrução SELECT dentro do loop foreach retorna uma NullPointerException. Eu sou incapaz de ver ...
Como atribuir e usar cabeçalhos de coluna no Spark?
Estou lendo um conjunto de dados como abaixo. f = sc.textFile("s3://test/abc.csv")Meu arquivo contém mais de 50 campos e desejo atribuir cabeçalhos de coluna para cada um dos campos para referência posteriormente no meu script. Como faço isso ...
Como armazenar objetos personalizados no conjunto de dados?
De acordo comApresentando conjuntos de dados Spark [https://databricks.com/blog/2016/01/04/introducing-spark-datasets.html]: Como esperamos ansiosamente pelo Spark 2.0, planejamos algumas melhorias interessantes para conjuntos de dados, ...
spark: Como fazer um dropDuplicates em um dataframe, mantendo a linha com o timestamp mais alto [duplicado]
Esta pergunta já tem uma resposta aqui: Encontre a linha máxima por grupo no Spark DataFrame [/questions/35218882/find-maximum-row-per-group-in-spark-dataframe] 2 respostas Eu tenho um caso de uso em que eu precisaria soltar linhas duplicadas de ...
Conversão DataFrame para RDD [Map] em Scala
Eu quero converter uma matriz criada como: case class Student(name: String, age: Int) val dataFrame: DataFrame = sql.createDataFrame(sql.sparkContext.parallelize(List(Student("Torcuato", 27), Student("Rosalinda", 34))))Quando eu coleciono os ...
Número de CPUs por tarefa no Spark
Eu não entendospark.task.cpus parâmetro. Parece-me que uma "tarefa" corresponde a um "encadeamento" ou "processo", se você desejar, dentro do executor. Suponha que eu defina "spark.task.cpus" como 2. Como um thread pode utilizar duas CPUs ...