Resultados da pesquisa a pedido "apache-spark"

2 a resposta

Spark: diferença quando lido em .gz e .bz2

Normalmente, leio e escrevo arquivos no Spark usando .gz, cujo número de arquivos deve ser igual ao número de partições RDD. I.e. um arquivo .gz gigante será lido em uma única partição. No entanto, se eu ler em um único .bz2, ainda obteria uma ...

1 a resposta

Tarefa Spark não serializável com função de janela lag

Notei que, depois de usar uma função Window em um DataFrame, se eu chamar um map () com uma função, o Spark retornará uma exceção "Task not serializable" Este é o meu código: val hc:org.apache.spark.sql.hive.HiveContext = ...

1 a resposta

maneiras de substituir groupByKey no apache Spark

Gostaria de saber a melhor maneira de substituirgroupByKeyoperação com outro. Basicamente, eu gostaria de obter umRDD [(int, Lista [Medida]), minha situação: // consider measures like RDD of objects measures.keyBy(_.getId) .groupByKey Minha ...

2 a resposta

Como executar uma função em todos os trabalhadores do Spark antes de processar dados no PySpark?

Estou executando uma tarefa Spark Streaming em um cluster usando o YARN. Cada nó no cluster executa vários trabalhadores spark. Antes do início da transmissão, desejo executar uma função de "configuração" em todos os trabalhadores em todos os nós ...

1 a resposta

Por que o Spark 1.6 não usa Akka?

Quando leio o código fonte do spark-1.6 domestre [https://github.com/apache/spark/blob/cf2e9da612397233ae7bca0e9ce57309f16226b5/core/src/main/scala/org/apache/spark/deploy/master/Master.scala] classe, o método receiveAndReply parece não estar ...

1 a resposta

instalação de janelas de faísca winutils

Estou tentando instalar o Spark 1.6.1 no Windows 10 e até agora fiz o seguinte ... Download do spark 1.6.1, descompactado em algum diretório e defina SPARK_HOMEDownload do scala 2.11.8, descompactado em algum diretório e defina SCALA_HOMEDefina ...

4 a resposta

Adicionando uma coluna de linhas em uma lista de colunas no Spark Dataframe

Eu tenho um quadro de dados Spark com várias colunas. Quero adicionar uma coluna ao quadro de dados que é uma soma de um determinado número de colunas. Por exemplo, meus dados são assim: ID var1 var2 var3 var4 var5 a 5 7 9 12 13 b 6 4 3 20 17 c ...

2 a resposta

PySpark: condições múltiplas na cláusula when

Gostaria de modificar os valores das células de uma coluna de dataframe (Age) onde atualmente está em branco e só o faria se outra coluna (Survived) tiver o valor 0 para a linha correspondente onde está em branco para Age. Se for 1 na coluna ...

2 a resposta

Entendendo o plano físico da faísca

Estou tentando entender os planos físicos, mas não entendo algumas partes porque elas parecem diferentes dos rdbms tradicionais. Por exemplo, neste plano abaixo, é um plano sobre uma consulta em uma tabela de seção. A consulta é esta: select ...

2 a resposta

Como posso declarar uma coluna como um recurso categórico em um DataFrame para uso em ml

Como posso declarar que uma determinada coluna no meuDataFrame contém informações categóricas? Eu tenho um Spark SQLDataFrame que eu carreguei de um banco de dados. Muitas das colunas nesteDataFrame possuem informações categóricas, mas são ...