Resultados da pesquisa a pedido "apache-spark-sql"
Quais são os possíveis motivos para receber TimeoutException: futuros atingiram o tempo limite após [n segundos] ao trabalhar com o Spark [duplicado]
Esta pergunta já tem uma resposta aqui: Por que a associação falha com "java.util.concurrent.TimeoutException: Futuros atingiram o tempo limite após [300 ...
Spark DataFrame: groupBy após orderBy mantém essa ordem?
Eu tenho um quadro de dados Spark 2.0example com a seguinte estrutura: id, hour, count id1, 0, 12 id1, 1, 55 .. id1, 23, 44 id2, 0, 12 id2, 1, 89 .. id2, 23, 34 etc.Ele contém 24 entradas para cada identificação (uma para cada hora do dia) e é ...
Spark carregar dados e adicionar nome do arquivo como coluna dataframe
Estou carregando alguns dados no Spark com uma função de wrapper: def load_data( filename ): df = sqlContext.read.format("com.databricks.spark.csv")\ .option("delimiter", "\t")\ .option("header", "false")\ .option("mode", "DROPMALFORMED")\ ...
Erro do PySpark: AttributeError: o objeto 'NoneType' não possui atributo '_jvm'
Eu tenho um conjunto de dados de carimbo de data / hora no formato de E eu escrevi um udf no pyspark para processar esse conjunto de dados e retornar como Mapa dos valores-chave. Mas estou recebendo a mensagem de erro abaixo. Conjunto de dados: ...
Converter data do formato String para Data em Dataframes
Estou tentando converter uma coluna no formato String para o formato Data usando oto_date função, mas retornando valores nulos. df.createOrReplaceTempView("incidents") spark.sql("select Date from incidents").show() +----------+ | , Date| ...
SparkSQL em tabelas HBase
Alguém está usando o SparkSQL nas tabelas HBase diretamente, como o SparkSQL nas tabelas Hive. Eu sou novo no spark.Por favor, guie-me como conectar o hbase e o spark.Como consultar em tabelas hbase.
O valor da configuração "spark.yarn.executor.memoryOverhead"?
O valor despark.yarn.executor.memoryOverhead em um trabalho do Spark com YARN deve ser alocado para o aplicativo ou apenas o valor máximo?
FPgrowth computing association em pyspark vs scala
Usando : http://spark.apache.org/docs/1.6.1/mllib-frequent-pattern-mining.html [http://spark.apache.org/docs/1.6.1/mllib-frequent-pattern-mining.html] Código Python: from pyspark.mllib.fpm import FPGrowth model = ...
O DAG dinâmico Spark é muito mais lento e diferente do DAG codificado
Eu tenho uma operação no spark que deve ser executada para várias colunas em um quadro de dados. Geralmente, existem 2 possibilidades para especificar essas operações Código difícilhandleBias("bar", df) .join(handleBias("baz", df), ...
Como converter o carimbo de data e hora em formato Data no DataFrame?
eu tenho umDataFrame comTimestamp coluna, que eu preciso converter comoDate formato. Existe alguma função Spark SQL disponível para isso?