Resultados da pesquisa a pedido "apache-spark"

1 a resposta

Como o YARN conhece a localidade dos dados no Apache spark no modo de cluster

Suponha que exista um trabalho do Spark que leia um arquivo chamado records.txt do HDFS e faça algumas transformações e uma ação (grave a saída processada no HDFS). O trabalho será enviado ao modo de cluster YARN Suponha também que records.txt ...

1 a resposta

Use SparkSession.sql () com JDBC

Problema: Gostaria de usar a conexão JDBC para fazer uma solicitação personalizada usando o spark. O objetivo desta consulta é otimizar a alocação de memória nos trabalhadores, por isso não posso usar: ss.read .format("jdbc") .option("url", ...

1 a resposta

exceção no thread principal java.lang.exceptionininitializerError Ao instalar o spark sem o hadoop

Estou tentando instalar o spark2.3.0, mais especificamente, é o spark-2.3.0-bin-hadoppo2.7 'D: \ spark \ bin' já foi adicionado na variável de ambiente PATH. Enquanto isso, o JDK-10 está instalado. O Hadoop não está instalado. Mas o Google diz ...

1 a resposta

Esquema da tabela Spark e Hive fora de sincronia após substituição externa

Estou tendo problemas com o esquema das tabelas do Hive que estão fora de sincronia entre o Spark e o Hive em um cluster Mapr com o Spark 2.1.0 e o Hive 2.1.1. Preciso tentar resolver esse problema especificamente para tabelas gerenciadas, mas o ...

2 a resposta

Como obter a memória do Executor Framework do Mesos Agents

Dentro da interface da Web do Mesos Web, posso ver o uso de memória dos meus executores Spark em uma tabela Agents -> Framework -> Executors Há uma tabela listando todos os executores do meu driver Spark e o uso de memória é indicado na ...

2 a resposta

Como substituir valores vazios em uma coluna do DataFrame?

Como posso substituir valores vazios em uma colunaField1 do DataFramedf? Field1 Field2 AA 12 BBEste comando não fornece um resultado esperado: df.na.fill("Field1",Seq("Anonymous"))O resultado esperado: Field1 Field2 Anonymous AA 12 BB

1 a resposta

Quadro de dados de pivô Pyspark com base na condição

Eu tenho um quadro de dados empyspark como abaixo. df.show() +---+-------+----+ | id| type|s_id| +---+-------+----+ | 1| ios| 11| | 1| ios| 12| | 1| ios| 13| | 1| ios| 14| | 1|android| 15| | 1|android| 16| | 1|android| 17| | 2| ios| 21| | ...

1 a resposta

Como gerar linhas dependendo do valor da coluna no spark?

suponha que se eu tiver uma coluna única com uma linha +---+ | id| +---+ | 4| +---+então como faço para gerar linhas dependendo do valor de uma coluna +---+ | id| +---+ | 1 | |---| | 2 | |---| | 3 | |---| | 4 | +---+

1 a resposta

PySpark “explode” o ditado na coluna

Eu tenho uma coluna 'true_recoms' no spark dataframe: -RECORD 17----------------------------------------------------------------- item | 20380109 true_recoms | {"5556867":1,"5801144":5,"7397596":21}Eu preciso 'explodir' esta coluna para obter ...

2 a resposta

java.lang.IllegalArgumentException em org.apache.xbean.asm5.ClassReader. <init> (Origem desconhecida) com Java 10

Comecei a receber o seguinte erro sempre que tento coletar meus dados. Isso aconteceu depois que eu instalei o Java 10.1. É claro que o retirei e reinstalei, o mesmo erro. Eu instalei o Java 9.04 mesmo erro. Em seguida, rasguei o python 2.7.14, o ...