Resultados da pesquisa a pedido "apache-spark-sql"

Estou tentando gravar um grande conjunto de dados particionado em disco com o Spark e opartitionBy algoritmo @ está lutando com as duas abordagens que tente As partições são muito inclinadas - algumas são enormes e outras são pequena Problem # ...

aggregation scala apache-spark

2 a resposta

Produto cumulativo no Spark?

Tento implementar um produto cumulativo no Spark scala, mas realmente não sei como fazê-lo. Eu tenho o seguinte quadro de dados: Input data: +--+--+--------+----+ |A |B | date | val| +--+--+--------+----+ |rr|gg|20171103| 2 | |hh|jj|20171103| 3 ...

apache-spark spark-streaming

2 a resposta

Converter colunas do quadro de dados Spark com uma matriz de objetos JSON em várias linhas

Tenho dados JSON de streaming, cuja estrutura pode ser descrita com a classe de caso abaixo case class Hello(A: String, B: Array[Map[String, String]])Os dados de amostra para o mesmo são os seguintes | A | B | ...

datastax cassandra-3.0

1 a resposta

Como corrigir a exceção ao executar o programa spark-sql localmente no windows10, habilitando o HiveSuppor

Eu estou trabalhando emSPARK-SQL 2.3.1 e estou tentando ativar o hiveSupport enquanto cria uma sessão como abaixo .enableHiveSupport() .config("spark.sql.warehouse.dir", "c://tmp//hive") Corri abaixo do ...

apache-spark pyspark

1 a resposta

Produto cartesiano detectado para junção INNER na coluna literal no PySpark

O código a seguir gera a exceção "Produto cartesiano detectado para junção INNER": first_df = spark.createDataFrame([{"first_id": "1"}, {"first_id": "1"}, {"first_id": "1"}, ]) second_df = spark.createDataFrame([{"some_value": "????"}, ]) ...

pyspark apache-spark json

1 a resposta

pyspark converte linha para json com valores nulos

Objetivo Para um quadro de dados com esquema id:string Cold:string Medium:string Hot:string IsNull:string annual_sales_c:string average_check_c:string credit_rating_c:string cuisine_c:string dayparts_c:string ...

scala apache-spark

3 a resposta

Como encontrar elementos comuns entre duas colunas da matriz?

Tenho duas colunas de string separadas por vírgula sourceAuthors etargetAuthors). val df = Seq( ("Author1,Author2,Author3","Author2,Author3,Author1") ).toDF("source","target") Gostaria de adicionar outra colunanCommonAuthors com o número de ...

scala

0 a resposta

unções da janela @Spark que dependem de si

Digo que tenho uma coluna de registros de data e hora classificados em um DataFrame. Quero escrever uma função que adiciona uma coluna a esse DataFrame que corta os carimbos de data e hora em fatias de tempo sequenciais de acordo com as seguintes ...

apache-spark

1 a resposta

Como usar a função de ordem superior da transformação?

É sobretransform função de ordem superior https: //issues.apache.org/jira/browse/SPARK-2390 [https://issues.apache.org/jira/browse/SPARK-23908]). Existe alguma maneira de usá-lo como uma função padrão ...

apache-spark

2 a resposta

Número de partições de quadro de dados após a classificação?

Como o spark determina o número de partições depois de usar umorderBy? Eu sempre pensei que o dataframe resultante temspark.sql.shuffle.partitions, mas isso não parece ser verdade: val df = (1 to 10000).map(i => ...

Página 51 do 52

48 49 505152

Resultados da pesquisa a pedido "apache-spark-sql"

Particionando um grande conjunto de dados inclinado no S3 com o método partitionBy do Spark

Produto cumulativo no Spark?

Converter colunas do quadro de dados Spark com uma matriz de objetos JSON em várias linhas

Tags populares

Como corrigir a exceção ao executar o programa spark-sql localmente no windows10, habilitando o HiveSuppor

Produto cartesiano detectado para junção INNER na coluna literal no PySpark

pyspark converte linha para json com valores nulos

Como encontrar elementos comuns entre duas colunas da matriz?

unções da janela @Spark que dependem de si

Como usar a função de ordem superior da transformação?

Número de partições de quadro de dados após a classificação?

Você é muito ativo! É ótimo!

Resultados da pesquisa a pedido "apache-spark-sql"

Tags populares