Resultados da pesquisa a pedido "apache-spark"
Considerações de segurança do Spark SQL
Quais são as considerações de segurança ao aceitar e executar consultas SQL spark arbitrárias? Imagine a seguinte configuração: Dois arquivos em hdfs são registrados como tabelasa_secrets eb_secrets: # must only be accessed by clients with ...
Definindo o esquema do DataFrame para uma tabela com 1500 colunas no Spark
Eu tenho uma tabela com cerca de 1500 colunas no SQL Server. Preciso ler os dados desta tabela, convertê-los no formato de tipo de dados adequado e inserir os registros no banco de dados Oracle. Qual é a melhor maneira de definir o esquema para ...
Como encontrar a mediana exata para dados agrupados no Spark
Eu tenho um requisito para calcular a mediana exata no conjunto de dados agrupados do tipo de dados Double no Spark usando Scala. É diferente da consulta semelhante:Encontre mediana no spark SQL para várias colunas de tipos de dados duplos ...
Lendo o gráfico do arquivo
Procurando executar um exemplo do GraphX na minha máquina Windows usando o Spark-Shell da instalação do Hadoop / Spark no SparklyR. Sou capaz de iniciar o shell a partir do diretório de instalação aqui ...
Obter o número atual de partições de um DataFrame
Existe alguma maneira de obter o número atual de partições de um DataFrame? Verifiquei o javadoc do DataFrame (spark 1.6) e não encontrei um método para isso, ou estou com saudades? (No caso de JavaRDD, existe um método getNumPartitions ().)
Existe uma maneira de transmitir resultados ao driver sem esperar que todas as partições concluam a execução?
Existe uma maneira de transmitir resultados para o driver sem esperar que todas as partições concluam a execução? Eu sou novo no Spark, por favor, aponte-me na direção certa se houver uma abordagem melhor. Eu gostaria de executar um grande ...
Acesse uma Hive segura ao executar o Spark em um cluster YARN não seguro
Temos dois clusters cloudera 5.7.1, um protegido usando o Kerberos e outro não seguro. É possível executar o Spark usando o cluster YARN não seguro enquanto acessa as tabelas de seção armazenadas no cluster seguro? (A versão Spark é 1.6) Em ...
Como lidar com entrada / saída de Spark UDF do tipo anulável primitivo
As questões: 1) O Spark não chama UDF se a entrada for uma coluna do tipo primitivo que contémnull: inputDF.show() +-----+ | x | +-----+ | null| | 1.0| +-----+ inputDF .withColumn("y", udf { (x: Double) => 2.0 }.apply($"x") // will not be ...
Especificando o nome do arquivo ao salvar um DataFrame como um CSV [duplicado]
Esta pergunta já tem uma resposta aqui: Salvar dataframe do Spark em arquivo único no local hdfs [duplicado] [/questions/40792434/spark-dataframe-save-in-single-file-on-hdfs-location] 1 respostaDigamos que eu tenho um Spark DF que desejo salvar ...
Como mapear recursos da saída de um VectorAssembler para os nomes das colunas no Spark ML?
Estou tentando executar uma regressão linear no PySpark e quero criar uma tabela contendo estatísticas resumidas, como coeficientes, valores-P e valores-t para cada coluna no meu conjunto de dados. No entanto, para treinar um modelo de regressão ...