Resultados da pesquisa a pedido "apache-spark"
Como confirmar manualmente o deslocamento no fluxo direto do Spark Kafka?
Eu olhei em volta, mas não encontrei uma resposta satisfatória para isso. Talvez esteja faltando alguma coisa. Por favor ajude. Temos um aplicativo de streaming Spark consumindo um tópico Kafka, que precisa garantir o processamento de ponta a ...
Lendo vários arquivos compactados no arquivo tar.gz no Spark [duplicado]
Esta pergunta já tem uma resposta aqui: Leia arquivos de texto inteiro de uma compactação no Spark [/questions/36604145/read-whole-text-files-from-a-compression-in-spark] 2 respostasEstou tentando criar um Spark RDD a partir de vários arquivos ...
Configuração Typesafe no Spark
Eu defini uma configuração padrão no meu aplicativo Spark, que está dobradasrc/main/resources/reference.conf. eu usoConfigFactory.load() para obter a configuração. Quando executo o aplicativo comspark-submit ele pega esses padrões. No ...
Conjunto de dados Spark, selecione com a coluna typed
Olhando para oselect() No Spark DataSet, existem várias assinaturas de funções geradas: (c1: TypedColumn[MyClass, U1],c2: TypedColumn[MyClass, U2] ....)Isso parece sugerir que eu deveria poder referenciar os membros do MyClass diretamente e ...
Como enumerar arquivos no diretório HDFS
Como enumerar arquivos no diretório HDFS? Isso é para enumerar arquivos no cluster Apache Spark usando o Scala. Vejo que há a opção sc.textfile (), mas isso também lerá o conteúdo. Eu quero ler apenas nomes de arquivos. Na verdade, eu tentei o ...
Spark: Monitorando um Aplicativo em Modo de Cluster
No momento, estou usando o spark-submit para iniciar um aplicativo no modo de cluster. A resposta do servidor mestre fornece um objeto json com um submitId que eu uso para identificar o aplicativo e eliminá-lo, se necessário. No entanto, não ...
Spark - SELECIONE ONDE ou filtrando?
Qual é a diferença entre selecionar com uma cláusula where e filtrar no Spark? Existem casos de uso em que um é mais apropriado que o outro? Quando eu uso DataFrame newdf = df.select(df.col("*")).where(df.col("somecol").leq(10))e quando ...
Spark equivalente a IF Then ELSE
Eu já vi essa pergunta aqui anteriormente e tirei lições disso. No entanto, não sei por que estou recebendo um erro quando acho que deve funcionar. Eu quero criar uma nova coluna no Spark existenteDataFrame por algumas regras. Aqui está o que eu ...
Buscando valores distintos em uma coluna usando o Spark DataFrame
Usando o Spark 1.6.1, preciso buscar valores distintos em uma coluna e, em seguida, executar alguma transformação específica em cima dela. A coluna contém mais de 50 milhões de registros e pode aumentar. Eu entendo que fazer umdistinct.collect() ...
Spark no YARN muito menos vcores usados
Estou usando o Spark em um cluster YARN (HDP 2.4) com as seguintes configurações: 1 Masternode64 GB de RAM (50 GB utilizáveis)24 núcleos (19 núcleos utilizáveis)5 Slavenodes64 GB de RAM (50 GB utilizáveis) cada24 núcleos (19 núcleos utilizáveis) ...