Resultados da pesquisa a pedido "apache-spark"
Cluster de fios Spark vs cliente - como escolher qual usar?
A faíscadocs [https://spark.apache.org/docs/1.6.2/running-on-yarn.html#configuration]tenha o parágrafo a seguir que descreve a diferença entre cliente e cluster de fios: Existem dois modos de implementação que podem ser usados para ...
Renomeando elementos aninhados no Scala Spark Dataframe
Eu tenho um quadro de dados Spark Scala com uma estrutura aninhada: |-- _History: struct (nullable = true) | |-- Article: array (nullable = true) | | |-- element: struct (containsNull = true) | | | |-- Id: string (nullable = true) | | | |-- ...
Exceção ao acessar o KafkaOffset a partir do RDD
Eu tenho um consumidor Spark que transmite de Kafka. Estou tentando gerenciar deslocamentos para a semântica exatamente uma vez. No entanto, ao acessar o deslocamento, lança a seguinte exceção: "java.lang.ClassCastException: ...
Configuração independente do Spark com vários executores
Estou tentando configurar um servidor Spark 2.0 autônomo para processar uma função de análise em paralelo. Para fazer isso, quero ter um único trabalhador com vários executores. Estou a usar : Spark autônomo 2.08 núcleos24gig RAMservidor ...
Scala spark, listbuffer está vazio
Neste trecho de código no comentário, 1 comprimento dos itens listbuffer é mostrado corretamente, mas no segundo código de comentário nunca é executado. Por que isso ocorre? val conf = new SparkConf().setAppName("app").setMaster("local") val sc ...
Diferença entre o modo standalone e local do spark?
Qual é a diferença entre o modo standalone e Local do Spark?
Eliminando várias colunas do dataframe Spark, iterando pelas colunas de uma lista Scala de nomes de colunas
Eu tenho um quadro de dados que tem colunas em torno de 400, quero soltar 100 colunas conforme minha exigência. Então, eu criei uma lista Scala de 100 nomes de colunas. E então eu quero iterar através de um loop for para realmente soltar a coluna ...
Configuração de ignição: SPARK_MEM vs. SPARK_WORKER_MEMORY
Em spark-env.sh, é possível configurar as seguintes variáveis de ambiente:
Junção Condicional no Spark DataFrame
Estou tentando juntar doisDataFrame com condição. Eu tenho dois dataframe A e B. A contém as colunas id, m_cd e c_cd B contém as colunas m_cd, c_cd e record As condições são - Se m_cd for nulo, junte c_cd de A com BSe m_cd não for nulo, junte ...
Spark 2.0: redefinindo os parâmetros do SparkSession por meio do GetOrCreate e NÃO vendo alterações no WebUI
Estou usando o Spark 2.0 com PySpark. Estou redefinindoSparkSession parâmetros através de umGetOrCreate método que foi introduzido no 2.0: Esse método primeiro verifica se existe um SparkSession padrão global válido e, se sim, retorne esse. Se ...