Resultados da pesquisa a pedido "apache-spark"
Qual é a melhor maneira de definir métodos personalizados em um DataFrame?
Eu preciso definir métodos personalizados no DataFrame. Qual é a melhor maneira de fazer isso? A solução deve ser escalável, pois pretendo definir um número significativo de métodos personalizados. Minha abordagem atual é criar uma classe ...
O Spark não resistiria ao próprio RDD quando perceber que não será mais usado?
Podemos manter um RDD na memória e / ou disco quando queremos usá-lo mais de uma vez. No entanto, precisamos remover o anti-persistência posteriormente, ou o Spark faz algum tipo de coleta de lixo e remove o RDD quando não é mais necessário? ...
Regressão logística do pipeline Spark ML produz previsões muito piores do que o R GLM
Usei o ML PipeLine para executar modelos de regressão logística, mas por algumas razões obtive piores resultados do que R. Fiz algumas pesquisas e o único post que achei relacionado a esse problema ...
O que são trabalhadores, executores, núcleos no cluster Spark Standalone?
Eu liVisão geral do modo de cluster [http://spark.apache.org/docs/latest/cluster-overview.html]e ainda não consigo entender os diferentes processos noCluster independente do Sparke o paralelismo. O trabalhador é um processo da JVM ou não? Eu ...
Como configurar o Zeppelin para trabalhar com o cluster remoto de fios EMR
Eu tenho o cluster do Amazon EMR Hadoop v2.6 com o Spark 1.4.1, com o gerenciador de recursos Yarn. Desejo implantar o Zeppelin em uma máquina separada para permitir desativar o cluster EMR quando não houver trabalhos em execução. Eu tentei ...
Salvando / exportando o DataFrame transformado de volta para JDBC / MySQL
Estou tentando descobrir como usar o novoDataFrameWriter para gravar dados de volta em um banco de dados JDBC. Não consigo encontrar nenhuma documentação para isso, embora olhando para o código-fonte pareça que deveria ser possível. Um exemplo ...
Como filtrar um spark dataframe contra outro dataframe
Estou tentando filtrar um dataframe contra outro: scala> val df1 = sc.parallelize((1 to 100).map(a=>(s"user $a", a*0.123, a))).toDF("name", "score", "user_id") scala> val df2 = sc.parallelize(List(2,3,4,5,6)).toDF("valid_id")Agora eu quero ...
Como verificar se o dataframe do spark está vazio
Agora, eu tenho que usardf.count > 0 para verificar se oDataFrame está vazio ou não. Mas é meio ineficiente. Existe alguma maneira melhor de fazer isso. Obrigado. PS: Quero verificar se está vazio, para salvar apenas oDataFrame se não estiver vazio
Spark DataFrame: Computando a média em linhas (ou qualquer operação agregada)
Eu tenho um Spark DataFrame carregado na memória e quero levar a média (ou qualquer operação agregada) sobre as colunas. Como eu faria isso? (Nonumpy, isso é conhecido como assumir uma operaçãoaxis=1) Se alguém estivesse calculando a média do ...
O que está acontecendo de errado com o `unionAll` do Spark` DataFrame`?
Usando o Spark 1.5.0 e com o código a seguir, espero que unionAll to unionDataFrames com base no nome da coluna. No código, estou usando algum FunSuite para passar no SparkContextsc: object Entities { case class A (a: Int, b: Int) case class B ...