Resultados da pesquisa a pedido "google-cloud-dataproc"

1 a resposta

Problemas de configuração do Google Cloud Dataproc

Eu tenho encontrado vários problemas em algumas modelagens de tópicos do Spark LDA (principalmente erros de desassociação em intervalos aparentemente aleatórios) que estou executando, o que eu acho principalmente relacionado à alocação ...

1 a resposta

Como resolver o problema de dependência do Guava ao enviar o Uber Jar para o Google Dataproc

Estou usando o plugin maven shade para criar o jar do Uber para enviá-lo como um trabalho para o cluster do google dataproc. O Google instalou o Apache Spark 2.0.2 Apache Hadoop 2.7.3 em seu cluster. O Apache spark 2.0.2 usa 14.0.1 do ...

3 a resposta

Enquanto envia um trabalho com o pyspark, como acessar o upload de arquivos estáticos com o argumento --files?

por exemplo, eu tenho uma pasta: / - test.py - test.ymle o trabalho é enviado ao spark cluster com: gcloud beta dataproc jobs submit pyspark --files=test.yml "test.py" notest.py, Desejo acessar o arquivo estático que carreguei. with ...

4 a resposta

Vírus do Google Cloud Dataproc CrytalMiner (dr.who)

Após a criação de um cluster do dataproc, muitos trabalhos são enviados automaticamente ao ResourceManager pelo usuário dr.who. Isso está privando os recursos do cluster e, eventualmente, sobrecarrega o cluster. Há pouca ou nenhuma informação ...

1 a resposta

pyspark rdd isCheckPointed () é false

Eu estava encontrando stackoverflowerrors quando adicionava iterativamente mais de 500 colunas ao meu dataframe pyspark. Então, incluí pontos de verificação. Os pontos de verificação não ajudaram. Portanto, criei o seguinte aplicativo ...

1 a resposta

KeyError: 'SPARK_HOME' no pyspark no Jupyter no Google-Cloud-DataProc

Ao tentar mostrar um SparkDF (Test), recebo um KeyError, como mostrado abaixo. Provavelmente algo der errado na função que eu usei antesTest.show(3). O KeyError diz: KeyError: 'SPARK_HOME'. Presumo que SPARK_HOME não esteja definido no mestre e ...

2 a resposta

Spark streaming no dataproc lança FileNotFoundException

Quando tento enviar um trabalho de fluxo contínuo para o cluster do google dataproc, recebo esta exceção: 16/12/13 00:44:20 ERROR org.apache.spark.SparkContext: Error initializing SparkContext. java.io.FileNotFoundException: ...

1 a resposta

Executando o arquivo jar do aplicativo no envio de spark em uma instância de cluster do google dataproc

Estou executando um arquivo .jar que contém todas as dependências necessárias. Uma dessas dependências écom.google.common.util.concurrent.RateLimiter e já verifiquei se o arquivo de classe está nesse arquivo .jar. Infelizmente, quando clico no ...

1 a resposta

Erro StackOverflow ao aplicar o "recommendProductsForUsers" do pyspark ALS (embora haja um cluster de> 300 GB de RAM disponível)

Procurando experiência para me guiar na questão abaixo. Fundo: Estou tentando seguir com um script básico do PySpark inspirado emeste ...

2 a resposta

Qual conector HBase para Spark 2.0 devo usar?

Nossa pilha é composta pelo Google Data Proc (Spark 2.0) e Google BigTable (HBase 1.2.0) e estou procurando um conector que funcione com essas versões. O Spark 2.0 e o novo suporte à API DataSet não estão claros para os conectores que ...