Resultados da pesquisa a pedido "google-cloud-dataproc"

1 a resposta

Erro StackOverflow ao aplicar o "recommendProductsForUsers" do pyspark ALS (embora haja um cluster de> 300 GB de RAM disponível)

Procurando experiência para me guiar na questão abaixo. Fundo: Estou tentando seguir com um script básico do PySpark inspirado emeste ...

2 a resposta

Spark streaming no dataproc lança FileNotFoundException

Quando tento enviar um trabalho de fluxo contínuo para o cluster do google dataproc, recebo esta exceção: 16/12/13 00:44:20 ERROR org.apache.spark.SparkContext: Error initializing SparkContext. java.io.FileNotFoundException: ...

3 a resposta

“Nenhum sistema de arquivos para o esquema: gs” ao executar o trabalho spark localmente

Estou executando um trabalho do Spark (versão 1.2.0) e a entrada é uma pasta dentro de um bucket do Google Clous Storage (ou seja, gs: // mybucket / folder) Ao executar o trabalho localmente na minha máquina Mac, estou recebendo o seguinte ...

3 a resposta

Exemplos do Dataproc + BigQuery - estão disponíveis?

De acordo com o Dataprocdocos [https://cloud.google.com/dataproc/faq], tem "integrações nativas e automáticas com o BigQuery" Eu tenho uma tabela no BigQuery. Quero ler essa tabela e executar algumas análises usando o cluster Dataproc que eu ...

2 a resposta

Saída do trabalho Dataproc Spark no Google Cloud Logging

Existe uma maneira de enviar a saída dos trabalhos do Dataproc Spark para o registro no Google Cloud?Conforme explicado nos documentos do Dataproc [https://cloud.google.com/dataproc/driver-output]a saída do driver da tarefa (o mestre de uma ...

3 a resposta

Enquanto envia um trabalho com o pyspark, como acessar o upload de arquivos estáticos com o argumento --files?

por exemplo, eu tenho uma pasta: / - test.py - test.ymle o trabalho é enviado ao spark cluster com: gcloud beta dataproc jobs submit pyspark --files=test.yml "test.py" notest.py, Desejo acessar o arquivo estático que carreguei. with ...

1 a resposta

GCP Dataproc - configure o planejador justo do YARN

Eu estava tentando configurar um cluster de dataproc que computasse apenas um trabalho (ou no máximo trabalhos especificados) por vez e o restante estaria na fila. Eu encontrei esta solução,Como configurar a fila de aplicativos FIFO ...

1 a resposta

pyspark rdd isCheckPointed () é false

Eu estava encontrando stackoverflowerrors quando adicionava iterativamente mais de 500 colunas ao meu dataframe pyspark. Então, incluí pontos de verificação. Os pontos de verificação não ajudaram. Portanto, criei o seguinte aplicativo ...

1 a resposta

Problemas de configuração do Google Cloud Dataproc

Eu tenho encontrado vários problemas em algumas modelagens de tópicos do Spark LDA (principalmente erros de desassociação em intervalos aparentemente aleatórios) que estou executando, o que eu acho principalmente relacionado à alocação ...

4 a resposta

Vírus do Google Cloud Dataproc CrytalMiner (dr.who)

Após a criação de um cluster do dataproc, muitos trabalhos são enviados automaticamente ao ResourceManager pelo usuário dr.who. Isso está privando os recursos do cluster e, eventualmente, sobrecarrega o cluster. Há pouca ou nenhuma informação ...