Resultados da pesquisa a pedido "apache-spark"

2 a resposta

O mapWithState do Spark Streaming parece reconstruir o estado completo periodicamente

Estou trabalhando em um projeto de streaming Scala (2.11) / Spark (1.6.1) e usandomapWithState() para acompanhar os dados vistos dos lotes anteriores. O estado é distribuído em 20 partições em vários nós, ...

6 a resposta

Fazendo histograma com a coluna Spark DataFrame

Estou tentando fazer um histograma com uma coluna de um dataframe que se parece com DataFrame[C0: int, C1: int, ...]Se eu fizesse um histograma com a coluna C1, o que devo fazer? Algumas coisas que eu tentei ...

1 a resposta

O spark-sql suporta vários delimitadores nos dados de entrada?

Eu tenho dados de entrada com vários delimitadores de caracteres únicos, conforme a seguir: col1data1"col2data1;col3data1"col4data1 col1data2"col2data2;col3data2"col4data2 col1data3"col2data3;col3data3"col4data3Nos dados acima, os ["], [;] são ...

3 a resposta

Pyspark: preenchimento para frente com última observação para um DataFrame

Usando o Spark 1.5.1, Eu tenho tentado encaminhar preenchimentovalores nuloscom a última observação conhecida parauma colunado meu DataFrame. É possível começar com um valor nulo e, nesse caso, eu preencheria esse valor nulo com a primeira ...

1 a resposta

Saindo do Spark-shell do script scala

Estou usando este comando para executar scripts scala. spark-shell -i test.scalaNo final da execução do script, ainda vejo o spark-shell em execução. Eu usei ": q /: quit" no script test.scala para tentar sair, mas não está funcionando.

2 a resposta

Exceção do Apache Spark no encadeamento “main” java.lang.NoClassDefFoundError: scala / collection / GenTraversableOnce $ class

Versão Scala: 2.11.7 (foi necessário atualizar o scala verison para permitir que a classe de caso aceite mais de 22 parâmetros.) Versão Spark: 1.6.1 PFB pom.xml Ficando abaixo do erro ao tentar configurar o spark no intellij IDE, 16/03/16 ...

1 a resposta

Como ler vários elementos de linha no Spark?

Quando você lê um arquivo no Spark usandosc.textfile, fornece elementos, onde cada elemento é uma linha separada. No entanto, quero que cada elemento seja composto por N número de linhas. Também não posso usar delimitadores porque não há nenhum ...

1 a resposta

Por que obtenho resultados nulos da função PySpark date_format ()?

Suponha que exista um quadro de datas com uma coluna composta de datas como seqüências de caracteres. Para essa suposição, criamos o seguinte dataFrame como exemplo: # Importing sql types from pyspark.sql.types import StringType, ...

2 a resposta

Usando funções de janelas no Spark

Estou tentando usar rowNumber nos quadros de dados do Spark. Minhas consultas estão funcionando conforme o esperado no shell Spark. Mas quando eu escrevê-los no eclipse e compilar um jar, estou enfrentando um erro 16/03/23 05:52:43 ERROR ...

3 a resposta

PySpark: cuspir arquivo único ao escrever em vez de vários arquivos de peça

Existe uma maneira de impedir que o PySpark crie vários arquivos pequenos ao gravar um DataFrame em um arquivo JSON? Se eu correr: df.write.format('json').save('myfile.json')ou df1.write.json('myfile.json')ele cria a pasta chamadamyfile e ...