Resultados da pesquisa a pedido "apache-spark"
Como o YARN conhece a localidade dos dados no Apache spark no modo de cluster
Suponha que exista um trabalho do Spark que leia um arquivo chamado records.txt do HDFS e faça algumas transformações e uma ação (grave a saída processada no HDFS). O trabalho será enviado ao modo de cluster YARN Suponha também que records.txt ...
Use SparkSession.sql () com JDBC
Problema: Gostaria de usar a conexão JDBC para fazer uma solicitação personalizada usando o spark. O objetivo desta consulta é otimizar a alocação de memória nos trabalhadores, por isso não posso usar: ss.read .format("jdbc") .option("url", ...
exceção no thread principal java.lang.exceptionininitializerError Ao instalar o spark sem o hadoop
Estou tentando instalar o spark2.3.0, mais especificamente, é o spark-2.3.0-bin-hadoppo2.7 'D: \ spark \ bin' já foi adicionado na variável de ambiente PATH. Enquanto isso, o JDK-10 está instalado. O Hadoop não está instalado. Mas o Google diz ...
Esquema da tabela Spark e Hive fora de sincronia após substituição externa
Estou tendo problemas com o esquema das tabelas do Hive que estão fora de sincronia entre o Spark e o Hive em um cluster Mapr com o Spark 2.1.0 e o Hive 2.1.1. Preciso tentar resolver esse problema especificamente para tabelas gerenciadas, mas o ...
Como obter a memória do Executor Framework do Mesos Agents
Dentro da interface da Web do Mesos Web, posso ver o uso de memória dos meus executores Spark em uma tabela Agents -> Framework -> Executors Há uma tabela listando todos os executores do meu driver Spark e o uso de memória é indicado na ...
Como substituir valores vazios em uma coluna do DataFrame?
Como posso substituir valores vazios em uma colunaField1 do DataFramedf? Field1 Field2 AA 12 BBEste comando não fornece um resultado esperado: df.na.fill("Field1",Seq("Anonymous"))O resultado esperado: Field1 Field2 Anonymous AA 12 BB
Quadro de dados de pivô Pyspark com base na condição
Eu tenho um quadro de dados empyspark como abaixo. df.show() +---+-------+----+ | id| type|s_id| +---+-------+----+ | 1| ios| 11| | 1| ios| 12| | 1| ios| 13| | 1| ios| 14| | 1|android| 15| | 1|android| 16| | 1|android| 17| | 2| ios| 21| | ...
Como gerar linhas dependendo do valor da coluna no spark?
suponha que se eu tiver uma coluna única com uma linha +---+ | id| +---+ | 4| +---+então como faço para gerar linhas dependendo do valor de uma coluna +---+ | id| +---+ | 1 | |---| | 2 | |---| | 3 | |---| | 4 | +---+
PySpark “explode” o ditado na coluna
Eu tenho uma coluna 'true_recoms' no spark dataframe: -RECORD 17----------------------------------------------------------------- item | 20380109 true_recoms | {"5556867":1,"5801144":5,"7397596":21}Eu preciso 'explodir' esta coluna para obter ...
java.lang.IllegalArgumentException em org.apache.xbean.asm5.ClassReader. <init> (Origem desconhecida) com Java 10
Comecei a receber o seguinte erro sempre que tento coletar meus dados. Isso aconteceu depois que eu instalei o Java 10.1. É claro que o retirei e reinstalei, o mesmo erro. Eu instalei o Java 9.04 mesmo erro. Em seguida, rasguei o python 2.7.14, o ...