Resultados da pesquisa a pedido "apache-spark"

5 a resposta

Converter coluna spark DataFrame em lista python

Eu trabalho em um dataframe com duas colunas, mvv e count. +---+-----+ |mvv|count| +---+-----+ | 1 | 5 | | 2 | 9 | | 3 | 3 | | 4 | 1 |eu gostaria de obter duas lista contendo valores mvv e valor da contagem. Algo como mvv = [1,2,3,4] count = ...

1 a resposta

Como conectar o HBase e o Spark usando Python?

Eu tenho uma tarefa paralela embaraçosamente para a qual eu uso o Spark para distribuir os cálculos. Esses cálculos estão em Python, e eu uso o PySpark para ler e pré-processar os dados. Os dados de entrada para minha tarefa são armazenados no ...

1 a resposta

SparkStreaming, RabbitMQ e MQTT em python usando pika

Apenas para tornar as coisas mais complicadas, eu gostaria de consumir mensagens da fila rabbitMQ. Agora eu sei que existe um plug-in para o MQTT no coelho ( https://www.rabbitmq.com/mqtt.html [https://www.rabbitmq.com/mqtt.html]) No entanto, ...

6 a resposta

Transpor coluna para linha com Spark

Estou tentando transpor algumas colunas da minha tabela para linha. Estou usando Python e Spark 1.5.0. Aqui está minha tabela inicial: +-----+-----+-----+-------+ | A |col_1|col_2|col_...| +-----+-------------------+ | 1 | 0.0| 0.6| ... | | 2 | ...

1 a resposta

unionAll resultando em StackOverflow

Eu fiz alguns progressos com minha própria pergunta (como carregar um quadro de dados de um fluxo de solicitações python que está baixando um arquivo ...

4 a resposta

Spark Dataframe validando nomes de colunas para gravações em parquet (scala)

Estou processando eventos usando Dataframes convertidos de um fluxo de eventos JSON que, eventualmente, são gravados no formato Parquet. No entanto, alguns dos eventos JSON contêm espaços nas chaves que eu quero registrar e filtrar / descartar ...

0 a resposta

Spark 2.0 - "Tabela ou exibição não encontrada" ao consultar o Hive [fechado]

Ao consultar o Hive viaspark-shell 2.0: spark.sql("SELECT * FROM schemaname.tablename")Emite um erro: 16/08/13 09:24:17 INFO execution.SparkSqlParser: Parsing command: SELECT * FROM schemaname.tablename org.apache.spark.sql.AnalysisException: ...

1 a resposta

Como o Spark lê o arquivo com sublinhado do início do nome do arquivo?

Quando uso o Spark para analisar arquivos de log, percebo que, se o primeiro caractere do nome do arquivo for_ , o resultado estará vazio. Aqui está o meu código de teste: SparkSession spark = SparkSession .builder() ...

2 a resposta

Noções básicas sobre o recurso Spark RandomForest do Spark

estou a usarRandomForest.featureImportances mas não entendo o resultado da saída. Eu tenho 12 recursos, e esta é a saída que recebo. Eu entendo que isso pode não ser uma pergunta específica do apache-spark, mas não consigo encontrar nenhum ...

1 a resposta

Como executar transformações independentes em paralelo usando o PySpark?

Estou tentando executar 2 funções fazendo transformações completamente independentes em um único RDD em paralelo usando o PySpark. Quais são alguns métodos para fazer o mesmo? def doXTransforms(sampleRDD): (X transforms) def ...