Resultados da pesquisa a pedido "apache-spark"
Como calcular o melhor numberOfPartitions para coalescer?
Então, eu entendo que em geral deve-se usarcoalesce() quando: o número de partições diminui devido a umafilter ou alguma outra operação que possa resultar na redução do conjunto de dados original (RDD, DF).coalesce() é útil para executar ...
O que vai acontecer se eu não tiver memória suficiente?
Sou novo no Spark e descobri que a documentação diz que o Spark carregará os dados na memória para tornar os algoritmos de iteração mais rápidos.Mas e se eu ...
Trabalhar com o Jupyter no Windows e o Apache Toree Kernel para compatibilidade com o Spark
Estou tentando instalar o kernel do Apache Toree para compatibilidade com spark e estou com uma mensagem ambiental estranha. Este é o processo que segui: Instale a última versão do Anaconda com o Jupyter 4.1.0Executar: pip install --pre ...
Qual é o tamanho máximo para um objeto de transmissão no Spark?
Ao usar o Dataframetransmissão [http://spark.apache.org/docs/2.0.0/api/java/org/apache/spark/sql/functions.html#broadcast(org.apache.spark.sql.Dataset)] função ou o ...
Scala: Gravar log em arquivo com log4j
Estou tentando criar um arquivo jar baseado em scala no eclipse que usa log4j para criar logs. Ele é impresso perfeitamente no console, mas quando tento usar o arquivo log4j.properties para gravá-lo em um arquivo de log, nada acontece. A ...
SparkR vs sparklyr [fechado]
Alguém tem uma visão geral em relação às vantagens / desvantagens do SparkR vs sparklyr? O Google não produz resultados satisfatórios e ambos parecem bastante semelhantes. Tentando as duas coisas, o SparkR parece muito mais complicado, enquanto o ...
PySpark: calcula o máximo de linhas do subconjunto de colunas e adiciona a um quadro de dados existente
Gostaria de calcular o máximo de um subconjunto de colunas para cada linha e adicioná-lo como uma nova coluna para o existenteDataframe. Eu consegui fazer isso de uma maneira muito estranha: def add_colmax(df,subset_columns,colnm): ''' ...
Como usar o Spark-Scala para baixar um arquivo CSV da Web?
mundo, Como usar o Spark-Scala para baixar um arquivo CSV da Web e carregar o arquivo em um DataFrame spark-csv? Atualmente, dependo de curl em um comando shell para obter meu arquivo CSV. Aqui está a sintaxe que eu quero aprimorar: /* ...