Resultados da pesquisa a pedido "apache-spark"
Como converter RDD [GenericRecord] em dataframe no scala?
Recebo tweets do tópico kafka com o Avro (serializador e desserializador). Então eu crio um consumidor de faísca que extrai tweets no Dstream do RDD [GenericRecord]. Agora eu quero converter cada rdd em um dataframe para analisar esses tweets via ...
Dataframe Spark: Gere uma matriz de tupla a partir de um tipo de mapa
Minha fonte downstream não suporta um tipo de mapa e minha fonte suporta e, como tal, envia isso. Eu preciso converter este mapa em uma matriz de struct (tupla). O Scala suporta Map.toArray, que cria uma matriz de tupla para você, que parece ser ...
Compare dois quadros de dados Spark
Dataframe Spark 1 -: +------+-------+---------+----+---+-------+ |city |product|date |sale|exp|wastage| +------+-------+---------+----+---+-------+ |city 1|prod 1 |9/29/2017|358 |975|193 | |city 1|prod 2 |8/25/2017|50 |687|201 | |city 1|prod ...
Cadeia de conversão do Spark SQL para carimbo de data e hora
Eu sou novo no Spark SQL e estou tentando converter uma string em um carimbo de data / hora em um quadro de dados do spark. Eu tenho uma string que parece'2017-08-01T02:26:59.000Z' em uma coluna chamada time_string Meu código para converter essa ...
Reter chaves com valores nulos ao escrever JSON no spark
Estou tentando escrever um arquivo JSON usando o spark. Existem algumas chaves que possuemnull como valor. Estes aparecem muito bem noDataSet, mas quando escrevo o arquivo, as chaves são descartadas. Como garantir que eles sejam mantidos? código ...
Inicialize o PySpark para predefinir a variável SparkContext 'sc'
Ao usar o PySpark, gostaria que um SparkContext fosse inicializado (no modo cliente do fio) após a criação de um novo notebook. Os tutoriais a seguir descrevem como fazer isso em versões anteriores do ipython / jupyter ...
Como alterar os metadados da coluna no pyspark?
Como posso atualizar os metadados da coluna no PySpark? Tenho valores de metadados correspondentes à codificação nominal de recursos categóricos (string) e gostaria de decodificá-los novamente de maneira automatizada. A gravação dos metadados na ...
Pyspark: substituindo valor em uma coluna pesquisando um dicionário
Eu sou um novato no PySpark. Eu tenho uma faíscaDataFrame df que possui uma coluna 'device_type'. Desejo substituir todos os valores contidos em "Tablet" ou "Telefone" por "Telefone" e substituir "PC" por "Área de trabalho". No Python, posso ...
Exceção de fluxo estruturado ao usar o modo de saída acréscimo com marca d'água
Apesar do fato de eu estar usandowithWatermark(), Estou recebendo a seguinte mensagem de erro quando executo meu trabalho de faísca: Exceção no encadeamento "main" org.apache.spark.sql.AnalysisException: anexar modo de saída não suportado quando ...
Em resumo, como estimar rapidamente o número de elementos em um dataframe
Como resultado, existe uma maneira rápida de obter uma contagem aproximada do número de elementos em um conjunto de dados? Ou seja, mais rápido queDataset.count() faz. Talvez possamos calcular essas informações a partir do número de partições ...