Resultados da pesquisa a pedido "pyspark"
Como faço para dividir um RDD em dois ou mais RDDs?
Estou procurando uma maneira de dividir um RDD em dois ou mais RDDs. O mais próximo que eu vi éScala Spark: Coleção dividida em vários RDD? [https://stackoverflow.com/questions/27231524/scala-spark-split-collection-into-several-rdd] que ainda é ...
Como usar o Scala e o Python em um mesmo projeto Spark?
É possível canalizarSpark RDDpara Python? Porque eu preciso de uma biblioteca python para fazer algum cálculo nos meus dados, mas meu principal projeto Spark é baseado no Scala. Existe uma maneira de misturar os dois ou permitir que o python ...
Como restaurar RDD de pares (chave, valor) depois que ele foi armazenado / lido de um arquivo de texto
Salvei meu RDD de pares (chave, valor) em um arquivo de texto usando saveAsTextFile. Depois de ler o arquivo de texto usandosc.textFile("filename.txt") comando, acabei com strings, em vez de pares (chave, valor). Minhas chaves costumavam ser ...
Adicione uma coluna vazia ao Spark DataFrame
Como mencionado emmuitos [https://stackoverflow.com/questions/29483498/append-a-column-to-data-frame-in-apache-spark-1-3] outros locais [http://apache-spark-user-list.1001560.n3.nabble.com/Append-column-to-Data-Frame-or-RDD-td22385.html] na ...
Particionar RDD em tuplas de comprimento n
Eu sou relativamente novo no Apache Spark e Python e queria saber se algo como o que vou descrever é factível? Eu tenho um RDD do formato [m1m2m3m4m5m6....... mn$8Eu tenho um RDD do formato [m9m10m11m12m13m14$n-2mn-1mn)]. As tuplas internas ...
getExecutorMemoryStatus (). size () não produzindo o número correto de executores
Em resumo, Preciso do número de executores / trabalhadores no cluster Spark, mas usandosc._jsc.sc().getExecutorMemoryStatus().size() me dá 1 quando na verdade existem 12 executores. Com mais detalhes, Estou tentando determinar o número de ...
Spark usando PySpark ler imagens
Olá, tenho muitas imagens (milhões inferiores) nas quais preciso fazer a classificação. Estou usando o Spark e consegui ler todas as imagens no formato de(filename1, content1), (filename2, content2) ... em um grande RDD. images = ...
Como podemos unir dois quadros de dados Spark SQL usando um critério "LIKE" no estilo SQL?
Estamos usando as bibliotecas PySpark em interface com o Spark 1.3.1. Temos dois quadros de dados,documents_df := {document_id, document_text} ekeywords_df := {keyword}. Gostaríamos de unir os dois quadros de dados e retornar um quadro de dados ...
Funções da janela Spark - intervalo entre datas
Estou tendo um Spark SQLDataFrame com dados e o que estou tentando obter são todas as linhas que precedem a linha atual em um determinado período. Então, por exemplo, eu quero ter todas as linhas de 7 dias antes da linha especificada. Eu descobri ...
Melhor maneira de obter o valor máximo em uma coluna de quadro de dados Spark
Estou tentando descobrir a melhor maneira de obter o maior valor em uma coluna de quadro de dados Spark. Considere o seguinte exemplo: df = spark.createDataFrame([(1., 4.), (2., 5.), (3., 6.)], ["A", "B"]) df.show() O que cria: +---+---+ | A| ...