Resultados da pesquisa a pedido "apache-spark"
Sparse Vector pyspark
Eu gostaria de encontrar um método eficiente para criar vetores de reposição no PySpark usando quadros de dados. Digamos que, dada a entrada transacional: df = spark.createDataFrame([ (0, "a"), (1, "a"), (1, "b"), (1, "c"), (2, "a"), (2, "b"), ...
Como proteger senha e nome de usuário no Spark (como para conexões JDBC / acessar bancos de dados RDBMS)?
Temos um caso de uso em que precisamos exportar dados do HDFS para um RDBMS. Eu vi issoexemplo [https://docs.databricks.com/spark/latest/data-sources/sql-databases.html]. Aqui eles armazenam o nome de usuário e a senha no código. Existe alguma ...
Use combineByKey para obter a saída como (key, iterable [values])
Estou tentando transformarRDD(key,value) paraRDD(key,iterable[value]), igual à saída retornada pelogroupByKey método. Mas comogroupByKey não é eficiente, estou tentando usarcombineByKey no RDD, no entanto, ele não está funcionando. Abaixo está o ...
Como classificar dentro das partições (e evitar a classificação entre as partições) usando a API RDD?
É o comportamento padrão do Hadoop MapReduce shuffle classificar a chave aleatória dentro da partição, mas não as partições cruzadas (é a ordem total que faz as chaves classificadas cruzarem as partições) Gostaria de perguntar como conseguir a ...
Mediana / quantis dentro do grupo PySpark
Gostaria de calcular quantis de grupo em um dataframe Spark (usando PySpark). Um resultado aproximado ou exato seria bom. Eu prefiro uma solução que eu possa usar dentro do contexto degroupBy / agg, para que eu possa misturá-lo com outras funções ...
SPARK SQL falha se não houver um caminho de partição especificado disponível
Estou usando o Hive Metastore no EMR. Consigo consultar a tabela manualmente através do HiveSQL. Mas quando eu uso a mesma tabela no Spark Job, ele dizO caminho de entrada não existe: s3: // Causado por: ...
Crie um mapa para chamar o POJO para cada linha do Spark Dataframe
Criei um modelo de H2O em R e salvei o código POJO. Quero pontuar arquivos em parquet em hdfs usando o POJO, mas não sei ao certo como fazê-lo. Eu pretendo ler os arquivos do parquet no spark (scala / SparkR / PySpark) e marcá-los lá. Abaixo está ...
Pyspark: matriz de elenco com estrutura aninhada para cadeia
Eu tenho o dataframe pyspark com uma coluna chamadaFiltros: "matriz>" Eu quero salvar meu dataframe no arquivo csv, para isso eu preciso converter a matriz para o tipo de seqüência de caracteres. Eu tentei lançá-lo:DF.Filters.tostring() ...
Razão de criação temporária do Spark
Por que o spark, ao salvar o resultado em um sistema de arquivos, carrega os arquivos de resultados em um diretório _temporary e os move para a pasta de saída em vez de enviá-los diretamente para a pasta de saída?
ERRO yarn.ApplicationMaster: exceção não capturada: java.util.concurrent.TimeoutException: futuros atingiram o tempo limite após 100000 milissegundos [duplicado]
Esta pergunta já tem uma resposta aqui: Por que a associação falha com "java.util.concurrent.TimeoutException: Futuros atingiram o tempo limite após [300 ...