Resultados da pesquisa a pedido "apache-spark"
Spark: diferença quando lido em .gz e .bz2
Normalmente, leio e escrevo arquivos no Spark usando .gz, cujo número de arquivos deve ser igual ao número de partições RDD. I.e. um arquivo .gz gigante será lido em uma única partição. No entanto, se eu ler em um único .bz2, ainda obteria uma ...
Tarefa Spark não serializável com função de janela lag
Notei que, depois de usar uma função Window em um DataFrame, se eu chamar um map () com uma função, o Spark retornará uma exceção "Task not serializable" Este é o meu código: val hc:org.apache.spark.sql.hive.HiveContext = ...
maneiras de substituir groupByKey no apache Spark
Gostaria de saber a melhor maneira de substituirgroupByKeyoperação com outro. Basicamente, eu gostaria de obter umRDD [(int, Lista [Medida]), minha situação: // consider measures like RDD of objects measures.keyBy(_.getId) .groupByKey Minha ...
Como executar uma função em todos os trabalhadores do Spark antes de processar dados no PySpark?
Estou executando uma tarefa Spark Streaming em um cluster usando o YARN. Cada nó no cluster executa vários trabalhadores spark. Antes do início da transmissão, desejo executar uma função de "configuração" em todos os trabalhadores em todos os nós ...
Por que o Spark 1.6 não usa Akka?
Quando leio o código fonte do spark-1.6 domestre [https://github.com/apache/spark/blob/cf2e9da612397233ae7bca0e9ce57309f16226b5/core/src/main/scala/org/apache/spark/deploy/master/Master.scala] classe, o método receiveAndReply parece não estar ...
instalação de janelas de faísca winutils
Estou tentando instalar o Spark 1.6.1 no Windows 10 e até agora fiz o seguinte ... Download do spark 1.6.1, descompactado em algum diretório e defina SPARK_HOMEDownload do scala 2.11.8, descompactado em algum diretório e defina SCALA_HOMEDefina ...
Adicionando uma coluna de linhas em uma lista de colunas no Spark Dataframe
Eu tenho um quadro de dados Spark com várias colunas. Quero adicionar uma coluna ao quadro de dados que é uma soma de um determinado número de colunas. Por exemplo, meus dados são assim: ID var1 var2 var3 var4 var5 a 5 7 9 12 13 b 6 4 3 20 17 c ...
PySpark: condições múltiplas na cláusula when
Gostaria de modificar os valores das células de uma coluna de dataframe (Age) onde atualmente está em branco e só o faria se outra coluna (Survived) tiver o valor 0 para a linha correspondente onde está em branco para Age. Se for 1 na coluna ...
Entendendo o plano físico da faísca
Estou tentando entender os planos físicos, mas não entendo algumas partes porque elas parecem diferentes dos rdbms tradicionais. Por exemplo, neste plano abaixo, é um plano sobre uma consulta em uma tabela de seção. A consulta é esta: select ...
Como posso declarar uma coluna como um recurso categórico em um DataFrame para uso em ml
Como posso declarar que uma determinada coluna no meuDataFrame contém informações categóricas? Eu tenho um Spark SQLDataFrame que eu carreguei de um banco de dados. Muitas das colunas nesteDataFrame possuem informações categóricas, mas são ...