Resultados da pesquisa a pedido "apache-spark"
Como executar o 2 EMR Spark Step simultaneamente?
Estou tentando executar duas etapas simultaneamente no EMR. No entanto, sempre recebo o primeiro passo em execução e o segundo pendent parte da minha configuração do Yarn é a seguint { "Classification": "capacity-scheduler", "Properties": ...
PySpark - Como transpor um Dataframe [duplicado]
Esta pergunta, já tem uma resposta aqui: Como dinamizar o DataFrame? [/questions/30244910/how-to-pivot-dataframe] respostas Quero transpor um quadro de dados. Este é apenas um pequeno trecho do meu dataframe original - from ...
erro @pyspark não existe no erro jvm ao inicializar o SparkContext
Estou usando o spark over emr e escrevendo um script pyspark, estou recebendo um erro ao tentar from pyspark import SparkContext sc = SparkContext()Este é o erro File "pyex.py", line 5, in <module> sc = SparkContext() ...
Spark Scala média em linhas, manipulando null
Eu tenho um quadro de dados com alto volume de dados e "n" número de coluna df_avg_calc: org.apache.spark.sql.DataFrame = [col1: double, col2: double ... 4 more ...
Conteúdo da coluna da matriz do filtro
Estou usando o pyspark 2.3.1 e gostaria de filtrar elementos do array com uma expressão e não usando udf: >>> df = spark.createDataFrame([(1, "A", [1,2,3,4]), (2, "B", [1,2,3,4,5])],["col1", "col2", "col3"]) >>> ...
Existe uma maneira de enviar trabalho de faísca em diferentes servidores executando o mestre
Temos um requisito para agendar trabalhos de faísca, já que estamos familiarizados com o apache-airflow, queremos prosseguir com ele para criar diferentes fluxos de trabalho. Pesquisei na web, mas não encontrei um guia passo a passo para agendar ...
Nenhum módulo chamado 'resource' instalando o Apache Spark no Windows
Estou tentando instalar o apache spark para executar localmente na minha máquina Windows. Eu segui todas as instruções ...
trabalhador @ Python falhou ao conectar novamente
Sou iniciante no Spark e estou tentando concluir um tutorial do Spark: link para o tutorial [https://www.youtube.com/watch?v=3CPI2D_QD44&index=4&list=PLot-YkcC7wZ_2sxmRTZr2c121rjcaleqv] epois de instalá-lo na máquina local (Win10 64, Python 3, ...
Spark Nenhum codificador encontrado para java.io.Serializable no mapa [String, java.io.Serializable]
Estou escrevendo um trabalho inicial que o conjunto de dados é bastante flexível, definido comoDataset[Map[String, java.io.Serializable]]. agora o problema começa a aparecer, o spark runtime reclama sobreNo Encoder found for ...
Produto cartesiano detectado para junção INNER na coluna literal no PySpark
O código a seguir gera a exceção "Produto cartesiano detectado para junção INNER": first_df = spark.createDataFrame([{"first_id": "1"}, {"first_id": "1"}, {"first_id": "1"}, ]) second_df = spark.createDataFrame([{"some_value": "????"}, ]) ...