Resultados da pesquisa a pedido "apache-spark"

3 a resposta

Como calcular o melhor numberOfPartitions para coalescer?

Então, eu entendo que em geral deve-se usarcoalesce() quando: o número de partições diminui devido a umafilter ou alguma outra operação que possa resultar na redução do conjunto de dados original (RDD, DF).coalesce() é útil para executar ...

1 a resposta

Existe algum implemento Spark ou Giraph do método Louvain?

5 a resposta

Como ler arquivos XML da estrutura de ignição do apache?

3 a resposta

O que vai acontecer se eu não tiver memória suficiente?

Sou novo no Spark e descobri que a documentação diz que o Spark carregará os dados na memória para tornar os algoritmos de iteração mais rápidos.Mas e se eu ...

2 a resposta

Trabalhar com o Jupyter no Windows e o Apache Toree Kernel para compatibilidade com o Spark

Estou tentando instalar o kernel do Apache Toree para compatibilidade com spark e estou com uma mensagem ambiental estranha. Este é o processo que segui: Instale a última versão do Anaconda com o Jupyter 4.1.0Executar: pip install --pre ...

1 a resposta

Qual é o tamanho máximo para um objeto de transmissão no Spark?

Ao usar o Dataframetransmissão [http://spark.apache.org/docs/2.0.0/api/java/org/apache/spark/sql/functions.html#broadcast(org.apache.spark.sql.Dataset)] função ou o ...

1 a resposta

Scala: Gravar log em arquivo com log4j

Estou tentando criar um arquivo jar baseado em scala no eclipse que usa log4j para criar logs. Ele é impresso perfeitamente no console, mas quando tento usar o arquivo log4j.properties para gravá-lo em um arquivo de log, nada acontece. A ...

7 a resposta

SparkR vs sparklyr [fechado]

Alguém tem uma visão geral em relação às vantagens / desvantagens do SparkR vs sparklyr? O Google não produz resultados satisfatórios e ambos parecem bastante semelhantes. Tentando as duas coisas, o SparkR parece muito mais complicado, enquanto o ...

1 a resposta

PySpark: calcula o máximo de linhas do subconjunto de colunas e adiciona a um quadro de dados existente

Gostaria de calcular o máximo de um subconjunto de colunas para cada linha e adicioná-lo como uma nova coluna para o existenteDataframe. Eu consegui fazer isso de uma maneira muito estranha: def add_colmax(df,subset_columns,colnm): ''' ...

1 a resposta

Como usar o Spark-Scala para baixar um arquivo CSV da Web?

mundo, Como usar o Spark-Scala para baixar um arquivo CSV da Web e carregar o arquivo em um DataFrame spark-csv? Atualmente, dependo de curl em um comando shell para obter meu arquivo CSV. Aqui está a sintaxe que eu quero aprimorar: /* ...