Resultados da pesquisa a pedido "apache-spark"

1 a resposta

Erro de lançamento do PySpark O método __getnewargs __ ([]) não existe

Eu tenho um conjunto de arquivos. O caminho para os arquivos é salvo em um arquivo., Diga "all_files.txt". Usando o apache spark, preciso fazer uma operação em todos os arquivos e associar os resultados. Os passos que eu quero fazer são: Crie ...

4 a resposta

Quais são os possíveis motivos para receber TimeoutException: futuros atingiram o tempo limite após [n segundos] ao trabalhar com o Spark [duplicado]

Esta pergunta já tem uma resposta aqui: Por que a associação falha com "java.util.concurrent.TimeoutException: Futuros atingiram o tempo limite após [300 ...

5 a resposta

Spark DataFrame: groupBy após orderBy mantém essa ordem?

Eu tenho um quadro de dados Spark 2.0example com a seguinte estrutura: id, hour, count id1, 0, 12 id1, 1, 55 .. id1, 23, 44 id2, 0, 12 id2, 1, 89 .. id2, 23, 34 etc.Ele contém 24 entradas para cada identificação (uma para cada hora do dia) e é ...

2 a resposta

Como gravar no hstore do PostgreSQL usando o Spark Dataset

Estou tentando gravar um Spark Dataset em uma tabela existente do postgresql (não é possível alterar os metadados da tabela, como os tipos de coluna). Uma das colunas desta tabela é do ...

2 a resposta

Spark RDD para python DataFrame

Estou tentando converter o Spark RDD em um DataFrame. Eu vi a documentação e o exemplo em que o esquema é passado parasqlContext.CreateDataFrame(rdd,schema) função. Mas eu tenho 38 colunas ou campos e isso aumentará ainda mais. Se eu ...

1 a resposta

Spark carregar dados e adicionar nome do arquivo como coluna dataframe

Estou carregando alguns dados no Spark com uma função de wrapper: def load_data( filename ): df = sqlContext.read.format("com.databricks.spark.csv")\ .option("delimiter", "\t")\ .option("header", "false")\ .option("mode", "DROPMALFORMED")\ ...

2 a resposta

Obtendo o erro NoClassDefFoundError: org.apache.spark.internal.Logging no Kafka Spark Stream

Estou recebendo um erro no tempo de execução executando abaixo do código java, É necessário incluir alguma dependência para o log como log4js ou algo assim? Por que esse erro não aparece no tempo de compilação para que seja mais fácil? Aqui ...

3 a resposta

Erro do PySpark: AttributeError: o objeto 'NoneType' não possui atributo '_jvm'

Eu tenho um conjunto de dados de carimbo de data / hora no formato de E eu escrevi um udf no pyspark para processar esse conjunto de dados e retornar como Mapa dos valores-chave. Mas estou recebendo a mensagem de erro abaixo. Conjunto de dados: ...

7 a resposta

Converter data do formato String para Data em Dataframes

Estou tentando converter uma coluna no formato String para o formato Data usando oto_date função, mas retornando valores nulos. df.createOrReplaceTempView("incidents") spark.sql("select Date from incidents").show() +----------+ | , Date| ...

1 a resposta

Aplicar uma função a uma única coluna de um csv no Spark

Usando o Spark, estou lendo um csv e quero aplicar uma função a uma coluna no csv. Eu tenho algum código que funciona, mas é muito hacky. Qual é a maneira correta de fazer isso? Meu código SparkContext().addPyFile("myfile.py") spark = ...