Resultados da pesquisa a pedido "apache-spark-sql"

1 a resposta

Dataframe Spark: Gere uma matriz de tupla a partir de um tipo de mapa

Minha fonte downstream não suporta um tipo de mapa e minha fonte suporta e, como tal, envia isso. Eu preciso converter este mapa em uma matriz de struct (tupla). O Scala suporta Map.toArray, que cria uma matriz de tupla para você, que parece ser ...

3 a resposta

Compare dois quadros de dados Spark

Dataframe Spark 1 -: +------+-------+---------+----+---+-------+ |city |product|date |sale|exp|wastage| +------+-------+---------+----+---+-------+ |city 1|prod 1 |9/29/2017|358 |975|193 | |city 1|prod 2 |8/25/2017|50 |687|201 | |city 1|prod ...

1 a resposta

Cadeia de conversão do Spark SQL para carimbo de data e hora

Eu sou novo no Spark SQL e estou tentando converter uma string em um carimbo de data / hora em um quadro de dados do spark. Eu tenho uma string que parece'2017-08-01T02:26:59.000Z' em uma coluna chamada time_string Meu código para converter essa ...

1 a resposta

Reter chaves com valores nulos ao escrever JSON no spark

Estou tentando escrever um arquivo JSON usando o spark. Existem algumas chaves que possuemnull como valor. Estes aparecem muito bem noDataSet, mas quando escrevo o arquivo, as chaves são descartadas. Como garantir que eles sejam mantidos? código ...

3 a resposta

Pyspark: substituindo valor em uma coluna pesquisando um dicionário

Eu sou um novato no PySpark. Eu tenho uma faíscaDataFrame df que possui uma coluna 'device_type'. Desejo substituir todos os valores contidos em "Tablet" ou "Telefone" por "Telefone" e substituir "PC" por "Área de trabalho". No Python, posso ...

1 a resposta

Erro: scalac: referência simbólica incorreta. Uma assinatura em SQLContext.class refere-se ao tipo Efetuando login no pacote org.apache.spark, que não está disponível

Quando cumpri um arquivo scala usado pelo IntelliJ IDEA, o seguinte erro foi mostrado. Erro: scalac: referência simbólica incorreta. Uma assinatura no SQLContext.class refere-se ao tipo Logon no pacote org.apache.spark, que não está ...

1 a resposta

Como usar a especificação da janela e a condição de associação por valores de coluna?

Aqui está o meu DF1 OrganizationId|^|AnnualPeriodId|^|InterimPeriodId|^|InterimNumber|^|FFAction 4295858898|^|204|^|205|^|1|^|I|!| 4295858898|^|204|^|208|^|2|^|I|!| 4295858898|^|204|^|209|^|2|^|I|!| ...

1 a resposta

Por que o Impala não consegue ler arquivos em parquet após a gravação do Spark SQL?

Tendo alguns problemas com a maneira como o Spark está interpretando colunas para parquet. Eu tenho uma fonte Oracle com esquema confirmado (método df.schema ()): root |-- LM_PERSON_ID: decimal(15,0) (nullable = true) |-- ...

2 a resposta

Spark.sql.autoBroadcastJoinThreshold funciona para junções usando o operador de junção do conjunto de dados?

Eu gostaria de saber sespark.sql.autoBroadcastJoinThreshold A propriedade pode ser útil para transmitir tabela menor em todos os nós do trabalhador (ao fazer a junção), mesmo quando o esquema de junção estiver usando a junção da API do conjunto ...

2 a resposta

Qual é a diferença entre spark.sql.shuffle.partitions e spark.default.parallelism?

Qual é a diferença entrespark.sql.shuffle.partitions espark.default.parallelism? Eu tentei colocar os dois emSparkSQL, mas o número da tarefa do segundo estágio é sempre 200.