Resultados da pesquisa a pedido "apache-spark"

1 a resposta

Considerações de segurança do Spark SQL

Quais são as considerações de segurança ao aceitar e executar consultas SQL spark arbitrárias? Imagine a seguinte configuração: Dois arquivos em hdfs são registrados como tabelasa_secrets eb_secrets: # must only be accessed by clients with ...

3 a resposta

Definindo o esquema do DataFrame para uma tabela com 1500 colunas no Spark

Eu tenho uma tabela com cerca de 1500 colunas no SQL Server. Preciso ler os dados desta tabela, convertê-los no formato de tipo de dados adequado e inserir os registros no banco de dados Oracle. Qual é a melhor maneira de definir o esquema para ...

5 a resposta

Como encontrar a mediana exata para dados agrupados no Spark

Eu tenho um requisito para calcular a mediana exata no conjunto de dados agrupados do tipo de dados Double no Spark usando Scala. É diferente da consulta semelhante:Encontre mediana no spark SQL para várias colunas de tipos de dados duplos ...

1 a resposta

Lendo o gráfico do arquivo

Procurando executar um exemplo do GraphX na minha máquina Windows usando o Spark-Shell da instalação do Hadoop / Spark no SparklyR. Sou capaz de iniciar o shell a partir do diretório de instalação aqui ...

4 a resposta

Obter o número atual de partições de um DataFrame

Existe alguma maneira de obter o número atual de partições de um DataFrame? Verifiquei o javadoc do DataFrame (spark 1.6) e não encontrei um método para isso, ou estou com saudades? (No caso de JavaRDD, existe um método getNumPartitions ().)

1 a resposta

Existe uma maneira de transmitir resultados ao driver sem esperar que todas as partições concluam a execução?

Existe uma maneira de transmitir resultados para o driver sem esperar que todas as partições concluam a execução? Eu sou novo no Spark, por favor, aponte-me na direção certa se houver uma abordagem melhor. Eu gostaria de executar um grande ...

1 a resposta

Acesse uma Hive segura ao executar o Spark em um cluster YARN não seguro

Temos dois clusters cloudera 5.7.1, um protegido usando o Kerberos e outro não seguro. É possível executar o Spark usando o cluster YARN não seguro enquanto acessa as tabelas de seção armazenadas no cluster seguro? (A versão Spark é 1.6) Em ...

3 a resposta

Como lidar com entrada / saída de Spark UDF do tipo anulável primitivo

As questões: 1) O Spark não chama UDF se a entrada for uma coluna do tipo primitivo que contémnull: inputDF.show() +-----+ | x | +-----+ | null| | 1.0| +-----+ inputDF .withColumn("y", udf { (x: Double) => 2.0 }.apply($"x") // will not be ...

1 a resposta

Especificando o nome do arquivo ao salvar um DataFrame como um CSV [duplicado]

Esta pergunta já tem uma resposta aqui: Salvar dataframe do Spark em arquivo único no local hdfs [duplicado] [/questions/40792434/spark-dataframe-save-in-single-file-on-hdfs-location] 1 respostaDigamos que eu tenho um Spark DF que desejo salvar ...

3 a resposta

Como mapear recursos da saída de um VectorAssembler para os nomes das colunas no Spark ML?

Estou tentando executar uma regressão linear no PySpark e quero criar uma tabela contendo estatísticas resumidas, como coeficientes, valores-P e valores-t para cada coluna no meu conjunto de dados. No entanto, para treinar um modelo de regressão ...