Resultados da pesquisa a pedido "apache-spark"

1 a resposta

Funções da janela Spark requer HiveContext?

Eu estou tentando um exemplo de função de janela na faísca deste ...

2 a resposta

Spark UDF chamado mais de uma vez por registro quando o DF tiver muitas colunas

Estou usando o Spark 1.6.1 e encontrando um comportamento estranho: estou executando um UDF com algumas computações pesadas (simulações de física) em um dataframe contendo alguns dados de entrada e construindo um resultado - Dataframe contendo ...

1 a resposta

NLineInputFormat não funciona no Spark

O que eu quero é basicamente ter cada elemento de dados composto por 10 linhas. No entanto, com o código a seguir, cada elemento ainda é uma linha. Que erro estou cometendo aqui? val conf = new SparkConf().setAppName("MyApp") ...

4 a resposta

Como selecionar a última linha e também como acessar o quadro de dados PySpark por índice?

De um dataframe PySpark SQL como name age city abc 20 A def 30 BComo obter a última linha. (Como por df.limit (1) Eu posso obter a primeira linha do dataframe no novo dataframe). E como posso acessar as linhas do quadro de dados por index.like ...

2 a resposta

Sobre como adicionar uma nova coluna a um DataFrame existente com valores aleatórios no Scala

Eu tenho um quadro de dados com um arquivo parquet e tenho que adicionar uma nova coluna com alguns dados aleatórios, mas preciso que os dados aleatórios sejam diferentes. Este é o meu código atual e a versão atual do spark ...

1 a resposta

Exceção de valor nulo do conjunto de dados Spark 2

Obtendo este erro nulo no spark Dataset.filter CSV de entrada: name,age,stat abc,22,m xyz,,sCódigo de trabalho: case class Person(name: String, age: Long, stat: String) val peopleDS = spark.read.option("inferSchema","true") ...

2 a resposta

approxQuantile fornece mediana incorreta no Spark (Scala)?

Eu tenho esses dados de teste: val data = List( List(47.5335D), List(67.5335D), List(69.5335D), List(444.1235D), List(677.5335D) )Estou esperando mediana para ser 69.5335. Mas quando tento encontrar a mediana exata com este ...

1 a resposta

Como ler registros no formato JSON do Kafka usando o Structured Streaming?

Estou tentando usarabordagem de streaming estruturado [http://spark.apache.org/docs/latest/structured-streaming-programming-guide.html] usando o Spark-Streaming com base na API DataFrame / Dataset para carregar um fluxo de dados do Kafka. Eu ...

4 a resposta

Como derreter o Spark DataFrame?

Existe um equivalente da função Pandas Melt no Apache Spark no PySpark ou pelo menos no Scala? Eu estava executando um exemplo de conjunto de dados até agora em python e agora quero usar o Spark para todo o conjunto de dados. Desde já, obrigado.

2 a resposta

Quadros de dados Spark - redução por chave

Digamos que eu tenho uma estrutura de dados como esta, em que ts é um carimbo de data / hora case class Record(ts: Long, id: Int, value: Int)Dado um grande número desses registros, quero terminar com o registro com o carimbo de data / hora mais ...