Resultados da pesquisa a pedido "google-cloud-dataproc"
Problemas de configuração do Google Cloud Dataproc
Eu tenho encontrado vários problemas em algumas modelagens de tópicos do Spark LDA (principalmente erros de desassociação em intervalos aparentemente aleatórios) que estou executando, o que eu acho principalmente relacionado à alocação ...
Como resolver o problema de dependência do Guava ao enviar o Uber Jar para o Google Dataproc
Estou usando o plugin maven shade para criar o jar do Uber para enviá-lo como um trabalho para o cluster do google dataproc. O Google instalou o Apache Spark 2.0.2 Apache Hadoop 2.7.3 em seu cluster. O Apache spark 2.0.2 usa 14.0.1 do ...
Enquanto envia um trabalho com o pyspark, como acessar o upload de arquivos estáticos com o argumento --files?
por exemplo, eu tenho uma pasta: / - test.py - test.ymle o trabalho é enviado ao spark cluster com: gcloud beta dataproc jobs submit pyspark --files=test.yml "test.py" notest.py, Desejo acessar o arquivo estático que carreguei. with ...
Vírus do Google Cloud Dataproc CrytalMiner (dr.who)
Após a criação de um cluster do dataproc, muitos trabalhos são enviados automaticamente ao ResourceManager pelo usuário dr.who. Isso está privando os recursos do cluster e, eventualmente, sobrecarrega o cluster. Há pouca ou nenhuma informação ...
pyspark rdd isCheckPointed () é false
Eu estava encontrando stackoverflowerrors quando adicionava iterativamente mais de 500 colunas ao meu dataframe pyspark. Então, incluí pontos de verificação. Os pontos de verificação não ajudaram. Portanto, criei o seguinte aplicativo ...
KeyError: 'SPARK_HOME' no pyspark no Jupyter no Google-Cloud-DataProc
Ao tentar mostrar um SparkDF (Test), recebo um KeyError, como mostrado abaixo. Provavelmente algo der errado na função que eu usei antesTest.show(3). O KeyError diz: KeyError: 'SPARK_HOME'. Presumo que SPARK_HOME não esteja definido no mestre e ...
Spark streaming no dataproc lança FileNotFoundException
Quando tento enviar um trabalho de fluxo contínuo para o cluster do google dataproc, recebo esta exceção: 16/12/13 00:44:20 ERROR org.apache.spark.SparkContext: Error initializing SparkContext. java.io.FileNotFoundException: ...
Executando o arquivo jar do aplicativo no envio de spark em uma instância de cluster do google dataproc
Estou executando um arquivo .jar que contém todas as dependências necessárias. Uma dessas dependências écom.google.common.util.concurrent.RateLimiter e já verifiquei se o arquivo de classe está nesse arquivo .jar. Infelizmente, quando clico no ...
Erro StackOverflow ao aplicar o "recommendProductsForUsers" do pyspark ALS (embora haja um cluster de> 300 GB de RAM disponível)
Procurando experiência para me guiar na questão abaixo. Fundo: Estou tentando seguir com um script básico do PySpark inspirado emeste ...
Qual conector HBase para Spark 2.0 devo usar?
Nossa pilha é composta pelo Google Data Proc (Spark 2.0) e Google BigTable (HBase 1.2.0) e estou procurando um conector que funcione com essas versões. O Spark 2.0 e o novo suporte à API DataSet não estão claros para os conectores que ...
Página 1 do 2