Resultados da pesquisa a pedido "pyspark"
Como anexar a um arquivo csv usando df.write.csv no pyspark?
Estou tentando acrescentar dados ao meu arquivo csv usandodf.write.csv. Foi o que fiz depois de seguir o documento do ...
Spark RDD: Como calcular estatísticas com mais eficiência?
Assumindo a existência de um RDD de tuplas semelhante ao seguinte: (key1, 1) (key3, 9) (key2, 3) (key1, 4) (key1, 5) (key3, 2) (key2, 7) ...Qual é a maneira mais eficiente (e, idealmente, distribuída) de calcular estatísticas correspondentes a ...
Apache spark lidando com instruções de caso
Estou lidando com a transformação de código SQL em código PySpark e me deparei com algumas instruções SQL. Não sei como abordar declarações de casos no pyspark? Estou planejando criar um RDD e, em seguida, usar o rdd.map e, em seguida, fazer ...
Configuração independente do Spark com vários executores
Estou tentando configurar um servidor Spark 2.0 autônomo para processar uma função de análise em paralelo. Para fazer isso, quero ter um único trabalhador com vários executores. Estou a usar : Spark autônomo 2.08 núcleos24gig RAMservidor ...
Como desativar a notação científica no pyspark?
Como resultado de alguma agregação, venho com o seguinte sparkdataframe: ------------+-----------------+-----------------+ |sale_user_id|gross_profit |total_sale_volume| +------------+-----------------+-----------------+ | 20569| -3322960.0| ...
Spark 2.0: redefinindo os parâmetros do SparkSession por meio do GetOrCreate e NÃO vendo alterações no WebUI
Estou usando o Spark 2.0 com PySpark. Estou redefinindoSparkSession parâmetros através de umGetOrCreate método que foi introduzido no 2.0: Esse método primeiro verifica se existe um SparkSession padrão global válido e, se sim, retorne esse. Se ...
Spark: Como "reduzirByKey" quando as teclas são matrizes numpy que não são laváveis?
Eu tenho um RDD de (chave, valor) elementos. As teclas são matrizes NumPy. As matrizes NumPy não são hasháveis e isso causa um problema quando tento fazer umreduceByKey Operação. Existe uma maneira de fornecer ao contexto do Spark minha função ...
Pyspark: função de janela personalizada
Atualmente, estou tentando extrair séries de ocorrências consecutivas em um quadro de dados PySpark e ordená-las / classificá-las conforme mostrado abaixo (por conveniência, solicitei o quadro de dados inicial poruser_id etimestamp): df_ini ...
Como limitar a alocação dinâmica de recursos no cluster do Hadoop no Yarn?
Em nosso cluster Hadoop que é executado no Yarn, estamos com um problema de que algumas pessoas "mais inteligentes" consomem quantidades significativamente maiores de recursos configurando tarefas Spark nos blocos de anotações pySpark Jupyter, ...
Fator desequilibrado de KMeans?
Edit: A resposta desta pergunta é fortemente discutida em:A soma no Spark foi ruim [https://stackoverflow.com/questions/39627773/sum-in-spark-gone-bad] NoCalcular o custo de ...