Resultados da pesquisa a pedido "apache-spark"
Erro de lançamento do PySpark O método __getnewargs __ ([]) não existe
Eu tenho um conjunto de arquivos. O caminho para os arquivos é salvo em um arquivo., Diga "all_files.txt". Usando o apache spark, preciso fazer uma operação em todos os arquivos e associar os resultados. Os passos que eu quero fazer são: Crie ...
Quais são os possíveis motivos para receber TimeoutException: futuros atingiram o tempo limite após [n segundos] ao trabalhar com o Spark [duplicado]
Esta pergunta já tem uma resposta aqui: Por que a associação falha com "java.util.concurrent.TimeoutException: Futuros atingiram o tempo limite após [300 ...
Spark DataFrame: groupBy após orderBy mantém essa ordem?
Eu tenho um quadro de dados Spark 2.0example com a seguinte estrutura: id, hour, count id1, 0, 12 id1, 1, 55 .. id1, 23, 44 id2, 0, 12 id2, 1, 89 .. id2, 23, 34 etc.Ele contém 24 entradas para cada identificação (uma para cada hora do dia) e é ...
Como gravar no hstore do PostgreSQL usando o Spark Dataset
Estou tentando gravar um Spark Dataset em uma tabela existente do postgresql (não é possível alterar os metadados da tabela, como os tipos de coluna). Uma das colunas desta tabela é do ...
Spark RDD para python DataFrame
Estou tentando converter o Spark RDD em um DataFrame. Eu vi a documentação e o exemplo em que o esquema é passado parasqlContext.CreateDataFrame(rdd,schema) função. Mas eu tenho 38 colunas ou campos e isso aumentará ainda mais. Se eu ...
Spark carregar dados e adicionar nome do arquivo como coluna dataframe
Estou carregando alguns dados no Spark com uma função de wrapper: def load_data( filename ): df = sqlContext.read.format("com.databricks.spark.csv")\ .option("delimiter", "\t")\ .option("header", "false")\ .option("mode", "DROPMALFORMED")\ ...
Obtendo o erro NoClassDefFoundError: org.apache.spark.internal.Logging no Kafka Spark Stream
Estou recebendo um erro no tempo de execução executando abaixo do código java, É necessário incluir alguma dependência para o log como log4js ou algo assim? Por que esse erro não aparece no tempo de compilação para que seja mais fácil? Aqui ...
Erro do PySpark: AttributeError: o objeto 'NoneType' não possui atributo '_jvm'
Eu tenho um conjunto de dados de carimbo de data / hora no formato de E eu escrevi um udf no pyspark para processar esse conjunto de dados e retornar como Mapa dos valores-chave. Mas estou recebendo a mensagem de erro abaixo. Conjunto de dados: ...
Converter data do formato String para Data em Dataframes
Estou tentando converter uma coluna no formato String para o formato Data usando oto_date função, mas retornando valores nulos. df.createOrReplaceTempView("incidents") spark.sql("select Date from incidents").show() +----------+ | , Date| ...
Aplicar uma função a uma única coluna de um csv no Spark
Usando o Spark, estou lendo um csv e quero aplicar uma função a uma coluna no csv. Eu tenho algum código que funciona, mas é muito hacky. Qual é a maneira correta de fazer isso? Meu código SparkContext().addPyFile("myfile.py") spark = ...