Resultados da pesquisa a pedido "apache-spark"

1 a resposta

Aumento da memória física para um aplicativo Spark no YARN

Estou executando um aplicativo Spark no YARN com dois executores com Xms / Xmx como 32 GB e spark.yarn.excutor.memoryOverhead como 6 GB. Estou vendo que a memória física do aplicativo está sempre aumentando e finalmente é eliminada pelo ...

1 a resposta

Spark mllib prevendo número estranho ou NaN

Eu sou novo no Apache Spark e estou tentando usar a biblioteca de aprendizado de máquina para prever alguns dados. Meu conjunto de dados agora é de apenas cerca de 350 pontos. Aqui estão 7 desses pontos: "365","4",41401.387,5330569 ...

2 a resposta

SPARK O método de amostra nos Dataframes é uniforme?

Quero escolher aleatoriamente um número selecionado de linhas de um quadro de dados e sei que o método de amostra faz isso, mas estou preocupado que minha aleatoriedade seja uma amostragem uniforme? Então, eu queria saber se o método de amostra ...

1 a resposta

Como gerar tuplas de (etiqueta original, etiqueta prevista) no Spark com MLlib?

Estou tentando fazer previsões com o modelo que voltei do MLlib no Spark. O objetivo é gerar tuplas de (orinalLabelInData, predictedLabel). Em seguida, essas tuplas podem ser usadas para fins de avaliação do modelo. Qual a melhor maneira de ...

2 a resposta

Configurando caminhos de classe spark no EC2: spark.driver.extraClassPath e spark.executor.extraClassPath

Reduzindo o tamanho do jar do aplicativo, fornecendo sparkPathPath para dependências automatizadas: Meu cluster está tendo 3 instâncias ec2 nas quais o hadoop e o spark estão em execução.Se eu criar jar com dependências maven, ele se tornará ...

2 a resposta

Como adicionar o arquivo de configuração ao caminho de classe de todos os executores Spark no Spark 1.2.0?

Estou usando o Typesafe Config,https://github.com/typesafehub/config [https://github.com/typesafehub/config], para parametrizar uma tarefa do Spark em execução no modo de cluster de fios com um arquivo de configuração. O comportamento padrão do ...

2 a resposta

Consulta do Spark em execução muito lenta

Eu tenho um cluster na AWS com 2 escravos e 1 mestre. Todas as instâncias são do tipo m1.large. Estou executando o spark versão 1.4. Estou comparando o desempenho da faísca em dados de 4 milhões provenientes do desvio para o vermelho. Disparei ...

1 a resposta

O RDD do cache Spark não aparece no Spark History WebUI - Armazenamento

estou usandoSpark-1.4.1 noCDH-5.4.4. eu usordd.cache() função, mas não mostra nada emStorage tab emSpark History WebUI Alguém tem os mesmos problemas? Como corrigi-lo?

8 a resposta

Como extrair os melhores parâmetros de um CrossValidatorModel

Eu quero encontrar os parâmetros deParamGridBuilder que fazem o melhor modelo no CrossValidator no Spark 1.4.x, NoExemplo de Pipeline [http://spark.apache.org/docs/latest/ml-guide.html#example-model-selection-via-cross-validation] na ...

1 a resposta

Como passar arquivos para o nó principal?

Eu já escrevi código em python para implementar a classificação binária e quero paralelizar esse processo de classificação com base em diferentes arquivos de dados no meu computador local usando o Apache-Spark. Eu já fiz as seguintes etapas: Eu ...