Resultados da pesquisa a pedido "apache-spark"

Estou usando o Scala e quero criar minha própria função DataFrame. Por exemplo, quero tratar uma coluna como uma matriz, iterar por cada elemento e fazer um cálculo. Para começar, estou tentando implementar meu próprio método getMax. Portanto, ...

pyspark apache-spark-sql python

2 a resposta

Composição da função de linha do PySpark

Como um exemplo simplificado, tenho um quadro de dados "df" com as colunas "col1, col2" e quero calcular o máximo em linhas após aplicar uma função a cada coluna: def f(x): return (x+1) max_udf=udf(lambda x,y: max(x,y), ...

decompression java hdfs hadoop

2 a resposta

Leia arquivos de texto inteiro de uma compactação no Spark

Eu tenho o seguinte problema: suponha que eu tenha um diretório que contém diretórios compactados que contêm vários arquivos, armazenados no HDFS. Eu quero criar um RDD que consiste em alguns objetos do tipo T, ou seja: context = new ...

pyspark python

2 a resposta

pyspark EOFError depois de chamar o mapa

Eu sou novo no spark & pyspark. Estou lendo um pequeno arquivo csv (~ 40k) em um dataframe. from pyspark.sql import functions as F df ...

scala sql

1 a resposta

Spark scala: SELECT em um loop foreach retorna java.lang.NullPointerException

Eu preciso iterar sobre o conteúdo de um DF com várias instruções SELECT dentro de um loop foreach, escrevendo a saída em arquivos de texto. Qualquer instrução SELECT dentro do loop foreach retorna uma NullPointerException. Eu sou incapaz de ver ...

hadoop pyspark python multiple-columns

3 a resposta

Como atribuir e usar cabeçalhos de coluna no Spark?

Estou lendo um conjunto de dados como abaixo. f = sc.textFile("s3://test/abc.csv")Meu arquivo contém mais de 50 campos e desejo atribuir cabeçalhos de coluna para cada um dos campos para referência posteriormente no meu script. Como faço isso ...

scala apache-spark-encoders apache-spark-dataset

8 a resposta

Como armazenar objetos personalizados no conjunto de dados?

De acordo comApresentando conjuntos de dados Spark [https://databricks.com/blog/2016/01/04/introducing-spark-datasets.html]: Como esperamos ansiosamente pelo Spark 2.0, planejamos algumas melhorias interessantes para conjuntos de dados, ...

dataframe pyspark spark-dataframe

2 a resposta

spark: Como fazer um dropDuplicates em um dataframe, mantendo a linha com o timestamp mais alto [duplicado]

Esta pergunta já tem uma resposta aqui: Encontre a linha máxima por grupo no Spark DataFrame [/questions/35218882/find-maximum-row-per-group-in-spark-dataframe] 2 respostas Eu tenho um caso de uso em que eu precisaria soltar linhas duplicadas de ...

scala

1 a resposta

Conversão DataFrame para RDD [Map] em Scala

Eu quero converter uma matriz criada como: case class Student(name: String, age: Int) val dataFrame: DataFrame = sql.createDataFrame(sql.sparkContext.parallelize(List(Student("Torcuato", 27), Student("Rosalinda", 34))))Quando eu coleciono os ...

multithreading scala

1 a resposta

Número de CPUs por tarefa no Spark

Eu não entendospark.task.cpus parâmetro. Parece-me que uma "tarefa" corresponde a um "encadeamento" ou "processo", se você desejar, dentro do executor. Suponha que eu defina "spark.task.cpus" como 2. Como um thread pode utilizar duas CPUs ...

Página 158 do 167

156 157158159 160

Resultados da pesquisa a pedido "apache-spark"

Função de Coluna Personalizada Spark Build, função definida pelo usuário

Composição da função de linha do PySpark

Leia arquivos de texto inteiro de uma compactação no Spark

Tags populares

pyspark EOFError depois de chamar o mapa

Spark scala: SELECT em um loop foreach retorna java.lang.NullPointerException

Como atribuir e usar cabeçalhos de coluna no Spark?

Como armazenar objetos personalizados no conjunto de dados?

spark: Como fazer um dropDuplicates em um dataframe, mantendo a linha com o timestamp mais alto [duplicado]

Conversão DataFrame para RDD [Map] em Scala

Número de CPUs por tarefa no Spark

Você é muito ativo! É ótimo!

Resultados da pesquisa a pedido "apache-spark"

Tags populares