Resultados da pesquisa a pedido "amazon-emr"

6 a resposta

erro @pyspark não existe no erro jvm ao inicializar o SparkContext

Estou usando o spark over emr e escrevendo um script pyspark, estou recebendo um erro ao tentar from pyspark import SparkContext sc = SparkContext()Este é o erro File "pyex.py", line 5, in <module> sc = SparkContext() ...

2 a resposta

Como executar o 2 EMR Spark Step simultaneamente?

Estou tentando executar duas etapas simultaneamente no EMR. No entanto, sempre recebo o primeiro passo em execução e o segundo pendent parte da minha configuração do Yarn é a seguint { "Classification": "capacity-scheduler", "Properties": ...

1 a resposta

O AWS CLI EMR obtém o ID da instância do nó principal e identifica-o

Desejo automatizar a execução de um cluster e posso usar tags para obter atributos de uma instância do EC2 como seu ID da instância. A documentação ...

2 a resposta

Salvar o quadro de dados no sistema de arquivos local resulta em resultados vazios

Estamos executando o spark 2.3.0 emAWW EMR. Os seguintesDataFrame "df"não está vazio e tem tamanho modesto: scala> df.count res0: Long = 4067O código a seguir funciona bem para escreverdf parahdfs: scala> val hdf = ...

1 a resposta

collect () ou toPandas () em um DataFrame grande no pyspark / EMR

Eu tenho um cluster EMR de uma máquina "c3.8xlarge", depois de ler vários recursos, entendi que tenho que permitir uma quantidade decente de memória fora do heap porque estou usando o pyspark; portanto, configurei o cluster da seguinte ...

2 a resposta

Como instalar uma GUI no Amazon AWS EC2 ou EMR com o Amazon AMI

Eu preciso executar um aplicativo que exija uma interface GUI para iniciar e configurar. Também preciso executar esse aplicativo no serviço EC2 e EMR da Amazon. O requisito de EMR significa que ele deve ser executado na Linux AMI da Amazon. Após ...

3 a resposta

Evite a criação de chaves _ $ folder $ no S3 com o hadoop (EMR)

Estou usando uma atividade EMR no pipeline de dados da AWS. Esta atividade EMR está executando um script de seção no cluster EMR. Ele pega o dínamo DB como entrada e armazena dados no S3. Esta é a etapa de EMR usada na Atividade de ...

1 a resposta

Mapeadores paralelos do AWS EMR?

Estou tentando determinar quantos nós preciso para meu cluster de EMR. Como parte das melhores práticas, as recomendações são: (Total de mapeadores necessários para o seu trabalho + Tempo necessário para processar) / (por capacidade da instância ...

1 a resposta

Como evitar a leitura de arquivos antigos do S3 ao anexar novos dados?

De duas em duas horas, o trabalho do spark está em execução para converter alguns arquivos tgz em parquet. O trabalho anexa os novos dados a um parquet existente no ...

3 a resposta

Lidando com um grande arquivo compactado com gzip no Spark

Tenho um arquivo gzip grande (com cerca de 85 GB compactado) da s3 que estou tentando processar com o Spark no AWS EMR (agora com uma instância principal m4.xlarge e duas instâncias principais m4.10xlarge, cada uma com um volume EBS de 100 GB) . ...