Resultados da pesquisa a pedido "apache-spark"
conte valores em várias colunas que contêm uma substring baseada em cadeias de listas pyspark
Eu tenho um quadro de dados emPyspark como abaixo. eu querocount valores em duas colunas com base em algunslists e preencha novas colunas para cadalist df.show() +---+-------------+-------------_+ | id| device| ...
Como explodir uma matriz em várias colunas no Spark
Eu tenho um spark dataframe parecido com: id DataArray a array(3,2,1) b array(4,2,1) c array(8,6,1) d array(8,2,4)Eu quero transformar esse quadro de dados em: id col1 col2 col3 a 3 2 1 b 4 2 1 c 8 6 1 d 8 2 4Que função devo usar?
Incompatibilidade de tipo: não é possível converter do Iterator <> no Java Spark
Exceção no encadeamento "main" java.lang.Error: Problema de compilação não resolvido: incompatibilidade de tipo: não é possível converter de Iterator em Iterable em com.spark.wordcount.lession1.WordCount2.main (WordCount2.java:26) SparkConf ...
Salvando e substituindo um arquivo no Spark Scala
Eu tenho um arquivo de texto onde minha primeira coluna é representada com o nome da tabela e a segunda coluna é representada com a data. O delimitador entre duas colunas é representado pelo espaço. Os dados são representados da ...
Qual é a diferença entre um sistema “stateful” e “stateless”?
Apache Spark [https://people.csail.mit.edu/matei/papers/2013/sosp_spark_streaming.pdf]alega que seus operadores (nós) são "sem estado". Isso permite que a arquitetura do Spark use protocolos mais simples para coisas como recuperação, ...
Existe um motivo para não usar SparkContext.getOrCreate ao escrever um trabalho de faísca?
Estou escrevendo Spark Jobs que conversam com Cassandra no Datastax. Às vezes, ao trabalhar com uma sequência de etapas em um trabalho do Spark, é mais fácil obter um novo RDD do que ingressar no antigo. Você pode fazer isso chamando ...
O Spark Streaming com Neo4j trava ao executar com o Docker
Criei uma imagem do docker do meu aplicativo quando simplesmente o executo a partir do script bash, ele funciona corretamente. No entanto, quando eu o executo como parte do arquivo docker-compose, o aplicativo trava na mensagem: 18/06/27 ...
Como posso ler do S3 no pyspark executando no modo local?
Estou usando o PyCharm 2018.1 usando o Python 3.4 com Spark 2.3 instalado via pip em um virtualenv. Não há instalação do hadoop no host local, portanto não há instalação do Spark (portanto, não há SPARK_HOME, HADOOP_HOME etc.) Quando eu tento ...
pyspark - Agrupando e calculando dados
Eu tenho o seguinte arquivo ...
Como manter a ordem dos valores ao fazer rollup em um spark Dataframe
Como posso fazer um rollup do quadro de dados abaixo, ou seja, ter apenas um registro para a chave comum e seus valores como uma tupla e manter a ordem dos valores. Consigo fazer o roll up, mas não consigo manter a ordem dos ...