Resultados da pesquisa a pedido "apache-spark"

Eu gostaria de encontrar um método eficiente para criar vetores de reposição no PySpark usando quadros de dados. Digamos que, dada a entrada transacional: df = spark.createDataFrame([ (0, "a"), (1, "a"), (1, "b"), (1, "c"), (2, "a"), (2, "b"), ...

apache-spark-sql

3 a resposta

Como proteger senha e nome de usuário no Spark (como para conexões JDBC / acessar bancos de dados RDBMS)?

Temos um caso de uso em que precisamos exportar dados do HDFS para um RDBMS. Eu vi issoexemplo [https://docs.databricks.com/spark/latest/data-sources/sql-databases.html]. Aqui eles armazenam o nome de usuário e a senha no código. Existe alguma ...

scala rdd hadoop

1 a resposta

Use combineByKey para obter a saída como (key, iterable [values])

Estou tentando transformarRDD(key,value) paraRDD(key,iterable[value]), igual à saída retornada pelogroupByKey método. Mas comogroupByKey não é eficiente, estou tentando usarcombineByKey no RDD, no entanto, ele não está funcionando. Abaixo está o ...

2 a resposta

Como classificar dentro das partições (e evitar a classificação entre as partições) usando a API RDD?

É o comportamento padrão do Hadoop MapReduce shuffle classificar a chave aleatória dentro da partição, mas não as partições cruzadas (é a ordem total que faz as chaves classificadas cruzarem as partições) Gostaria de perguntar como conseguir a ...

apache-spark-sql pyspark-sql pyspark

3 a resposta

Mediana / quantis dentro do grupo PySpark

Gostaria de calcular quantis de grupo em um dataframe Spark (usando PySpark). Um resultado aproximado ou exato seria bom. Eu prefiro uma solução que eu possa usar dentro do contexto degroupBy / agg, para que eu possa misturá-lo com outras funções ...

hive pyspark python hadoop

1 a resposta

SPARK SQL falha se não houver um caminho de partição especificado disponível

Estou usando o Hive Metastore no EMR. Consigo consultar a tabela manualmente através do HiveSQL. Mas quando eu uso a mesma tabela no Spark Job, ele dizO caminho de entrada não existe: s3: // Causado por: ...

scala h2o pyspark pojo

2 a resposta

Crie um mapa para chamar o POJO para cada linha do Spark Dataframe

Criei um modelo de H2O em R e salvei o código POJO. Quero pontuar arquivos em parquet em hdfs usando o POJO, mas não sei ao certo como fazê-lo. Eu pretendo ler os arquivos do parquet no spark (scala / SparkR / PySpark) e marcá-los lá. Abaixo está ...

sql spark-dataframe pyspark python

2 a resposta

Pyspark: matriz de elenco com estrutura aninhada para cadeia

Eu tenho o dataframe pyspark com uma coluna chamadaFiltros: "matriz>" Eu quero salvar meu dataframe no arquivo csv, para isso eu preciso converter a matriz para o tipo de seqüência de caracteres. Eu tentei lançá-lo:DF.Filters.tostring() ...

0 a resposta

Razão de criação temporária do Spark

Por que o spark, ao salvar o resultado em um sistema de arquivos, carrega os arquivos de resultados em um diretório _temporary e os move para a pasta de saída em vez de enviá-los diretamente para a pasta de saída?

akka apache-spark-sql

2 a resposta

ERRO yarn.ApplicationMaster: exceção não capturada: java.util.concurrent.TimeoutException: futuros atingiram o tempo limite após 100000 milissegundos [duplicado]

Esta pergunta já tem uma resposta aqui: Por que a associação falha com "java.util.concurrent.TimeoutException: Futuros atingiram o tempo limite após [300 ...

Página 49 do 167

47 484950 51

Resultados da pesquisa a pedido "apache-spark"

Sparse Vector pyspark

Como proteger senha e nome de usuário no Spark (como para conexões JDBC / acessar bancos de dados RDBMS)?

Use combineByKey para obter a saída como (key, iterable [values])

Tags populares

Como classificar dentro das partições (e evitar a classificação entre as partições) usando a API RDD?

Mediana / quantis dentro do grupo PySpark

SPARK SQL falha se não houver um caminho de partição especificado disponível

Crie um mapa para chamar o POJO para cada linha do Spark Dataframe

Pyspark: matriz de elenco com estrutura aninhada para cadeia

Razão de criação temporária do Spark

ERRO yarn.ApplicationMaster: exceção não capturada: java.util.concurrent.TimeoutException: futuros atingiram o tempo limite após 100000 milissegundos [duplicado]

Você é muito ativo! É ótimo!

Resultados da pesquisa a pedido "apache-spark"

Tags populares