Resultados da pesquisa a pedido "apache-spark-sql"

1 a resposta

Particionando um grande conjunto de dados inclinado no S3 com o método partitionBy do Spark

Estou tentando gravar um grande conjunto de dados particionado em disco com o Spark e opartitionBy algoritmo @ está lutando com as duas abordagens que tente As partições são muito inclinadas - algumas são enormes e outras são pequena Problem # ...

2 a resposta

Produto cumulativo no Spark?

Tento implementar um produto cumulativo no Spark scala, mas realmente não sei como fazê-lo. Eu tenho o seguinte quadro de dados: Input data: +--+--+--------+----+ |A |B | date | val| +--+--+--------+----+ |rr|gg|20171103| 2 | |hh|jj|20171103| 3 ...

2 a resposta

Converter colunas do quadro de dados Spark com uma matriz de objetos JSON em várias linhas

Tenho dados JSON de streaming, cuja estrutura pode ser descrita com a classe de caso abaixo case class Hello(A: String, B: Array[Map[String, String]])Os dados de amostra para o mesmo são os seguintes | A | B | ...

1 a resposta

Como corrigir a exceção ao executar o programa spark-sql localmente no windows10, habilitando o HiveSuppor

Eu estou trabalhando emSPARK-SQL 2.3.1 e estou tentando ativar o hiveSupport enquanto cria uma sessão como abaixo .enableHiveSupport() .config("spark.sql.warehouse.dir", "c://tmp//hive") Corri abaixo do ...

1 a resposta

Produto cartesiano detectado para junção INNER na coluna literal no PySpark

O código a seguir gera a exceção "Produto cartesiano detectado para junção INNER": first_df = spark.createDataFrame([{"first_id": "1"}, {"first_id": "1"}, {"first_id": "1"}, ]) second_df = spark.createDataFrame([{"some_value": "????"}, ]) ...

1 a resposta

pyspark converte linha para json com valores nulos

Objetivo Para um quadro de dados com esquema id:string Cold:string Medium:string Hot:string IsNull:string annual_sales_c:string average_check_c:string credit_rating_c:string cuisine_c:string dayparts_c:string ...

3 a resposta

Como encontrar elementos comuns entre duas colunas da matriz?

Tenho duas colunas de string separadas por vírgula sourceAuthors etargetAuthors). val df = Seq( ("Author1,Author2,Author3","Author2,Author3,Author1") ).toDF("source","target") Gostaria de adicionar outra colunanCommonAuthors com o número de ...

0 a resposta

unções da janela @Spark que dependem de si

Digo que tenho uma coluna de registros de data e hora classificados em um DataFrame. Quero escrever uma função que adiciona uma coluna a esse DataFrame que corta os carimbos de data e hora em fatias de tempo sequenciais de acordo com as seguintes ...

1 a resposta

Como usar a função de ordem superior da transformação?

É sobretransform função de ordem superior https: //issues.apache.org/jira/browse/SPARK-2390 [https://issues.apache.org/jira/browse/SPARK-23908]). Existe alguma maneira de usá-lo como uma função padrão ...

2 a resposta

Número de partições de quadro de dados após a classificação?

Como o spark determina o número de partições depois de usar umorderBy? Eu sempre pensei que o dataframe resultante temspark.sql.shuffle.partitions, mas isso não parece ser verdade: val df = (1 to 10000).map(i => ...