Resultados da pesquisa a pedido "apache-spark"
Converter coluna spark DataFrame em lista python
Eu trabalho em um dataframe com duas colunas, mvv e count. +---+-----+ |mvv|count| +---+-----+ | 1 | 5 | | 2 | 9 | | 3 | 3 | | 4 | 1 |eu gostaria de obter duas lista contendo valores mvv e valor da contagem. Algo como mvv = [1,2,3,4] count = ...
Como conectar o HBase e o Spark usando Python?
Eu tenho uma tarefa paralela embaraçosamente para a qual eu uso o Spark para distribuir os cálculos. Esses cálculos estão em Python, e eu uso o PySpark para ler e pré-processar os dados. Os dados de entrada para minha tarefa são armazenados no ...
SparkStreaming, RabbitMQ e MQTT em python usando pika
Apenas para tornar as coisas mais complicadas, eu gostaria de consumir mensagens da fila rabbitMQ. Agora eu sei que existe um plug-in para o MQTT no coelho ( https://www.rabbitmq.com/mqtt.html [https://www.rabbitmq.com/mqtt.html]) No entanto, ...
Transpor coluna para linha com Spark
Estou tentando transpor algumas colunas da minha tabela para linha. Estou usando Python e Spark 1.5.0. Aqui está minha tabela inicial: +-----+-----+-----+-------+ | A |col_1|col_2|col_...| +-----+-------------------+ | 1 | 0.0| 0.6| ... | | 2 | ...
unionAll resultando em StackOverflow
Eu fiz alguns progressos com minha própria pergunta (como carregar um quadro de dados de um fluxo de solicitações python que está baixando um arquivo ...
Spark Dataframe validando nomes de colunas para gravações em parquet (scala)
Estou processando eventos usando Dataframes convertidos de um fluxo de eventos JSON que, eventualmente, são gravados no formato Parquet. No entanto, alguns dos eventos JSON contêm espaços nas chaves que eu quero registrar e filtrar / descartar ...
Spark 2.0 - "Tabela ou exibição não encontrada" ao consultar o Hive [fechado]
Ao consultar o Hive viaspark-shell 2.0: spark.sql("SELECT * FROM schemaname.tablename")Emite um erro: 16/08/13 09:24:17 INFO execution.SparkSqlParser: Parsing command: SELECT * FROM schemaname.tablename org.apache.spark.sql.AnalysisException: ...
Como o Spark lê o arquivo com sublinhado do início do nome do arquivo?
Quando uso o Spark para analisar arquivos de log, percebo que, se o primeiro caractere do nome do arquivo for_ , o resultado estará vazio. Aqui está o meu código de teste: SparkSession spark = SparkSession .builder() ...
Noções básicas sobre o recurso Spark RandomForest do Spark
estou a usarRandomForest.featureImportances mas não entendo o resultado da saída. Eu tenho 12 recursos, e esta é a saída que recebo. Eu entendo que isso pode não ser uma pergunta específica do apache-spark, mas não consigo encontrar nenhum ...
Como executar transformações independentes em paralelo usando o PySpark?
Estou tentando executar 2 funções fazendo transformações completamente independentes em um único RDD em paralelo usando o PySpark. Quais são alguns métodos para fazer o mesmo? def doXTransforms(sampleRDD): (X transforms) def ...