Resultados da pesquisa a pedido "apache-spark"

2 a resposta

Como executar o 2 EMR Spark Step simultaneamente?

Estou tentando executar duas etapas simultaneamente no EMR. No entanto, sempre recebo o primeiro passo em execução e o segundo pendent parte da minha configuração do Yarn é a seguint { "Classification": "capacity-scheduler", "Properties": ...

1 a resposta

PySpark - Como transpor um Dataframe [duplicado]

Esta pergunta, já tem uma resposta aqui: Como dinamizar o DataFrame? [/questions/30244910/how-to-pivot-dataframe] respostas Quero transpor um quadro de dados. Este é apenas um pequeno trecho do meu dataframe original - from ...

6 a resposta

erro @pyspark não existe no erro jvm ao inicializar o SparkContext

Estou usando o spark over emr e escrevendo um script pyspark, estou recebendo um erro ao tentar from pyspark import SparkContext sc = SparkContext()Este é o erro File "pyex.py", line 5, in <module> sc = SparkContext() ...

2 a resposta

Spark Scala média em linhas, manipulando null

Eu tenho um quadro de dados com alto volume de dados e "n" número de coluna df_avg_calc: org.apache.spark.sql.DataFrame = [col1: double, col2: double ... 4 more ...

1 a resposta

Conteúdo da coluna da matriz do filtro

Estou usando o pyspark 2.3.1 e gostaria de filtrar elementos do array com uma expressão e não usando udf: >>> df = spark.createDataFrame([(1, "A", [1,2,3,4]), (2, "B", [1,2,3,4,5])],["col1", "col2", "col3"]) >>> ...

1 a resposta

Existe uma maneira de enviar trabalho de faísca em diferentes servidores executando o mestre

Temos um requisito para agendar trabalhos de faísca, já que estamos familiarizados com o apache-airflow, queremos prosseguir com ele para criar diferentes fluxos de trabalho. Pesquisei na web, mas não encontrei um guia passo a passo para agendar ...

3 a resposta

Nenhum módulo chamado 'resource' instalando o Apache Spark no Windows

Estou tentando instalar o apache spark para executar localmente na minha máquina Windows. Eu segui todas as instruções ...

2 a resposta

trabalhador @ Python falhou ao conectar novamente

Sou iniciante no Spark e estou tentando concluir um tutorial do Spark: link para o tutorial [https://www.youtube.com/watch?v=3CPI2D_QD44&index=4&list=PLot-YkcC7wZ_2sxmRTZr2c121rjcaleqv] epois de instalá-lo na máquina local (Win10 64, Python 3, ...

1 a resposta

Spark Nenhum codificador encontrado para java.io.Serializable no mapa [String, java.io.Serializable]

Estou escrevendo um trabalho inicial que o conjunto de dados é bastante flexível, definido comoDataset[Map[String, java.io.Serializable]]. agora o problema começa a aparecer, o spark runtime reclama sobreNo Encoder found for ...

1 a resposta

Produto cartesiano detectado para junção INNER na coluna literal no PySpark

O código a seguir gera a exceção "Produto cartesiano detectado para junção INNER": first_df = spark.createDataFrame([{"first_id": "1"}, {"first_id": "1"}, {"first_id": "1"}, ]) second_df = spark.createDataFrame([{"some_value": "????"}, ]) ...