Resultados da pesquisa a pedido "apache-spark-sql"

1 a resposta

Número de partições do Spark Dataframe

Alguém pode explicar sobre o número de partições que serão criadas para um Spark Dataframe. Eu sei que para um RDD, ao criá-lo, podemos mencionar o número de partições como abaixo. val RDD1 = sc.textFile("path" , 6)Mas, para o quadro de dados ...

1 a resposta

Contagem máxima de colunas do Spark Dataframe

Qual é a contagem máxima de colunas do Spark Dataframe? Tentei obtê-lo da documentação do quadro de dados, mas não consegui encontrá-lo.

8 a resposta

Como realizar a união em dois DataFrames com diferentes quantidades de colunas no spark?

eu tenho 2DataFrames como segue: [/imgs/L4qs0.png] Eu preciso de união assim: [/imgs/mdICY.png] ounionAll A função não funciona porque o número e o nome das colunas são diferentes. Como posso fazer isso?

1 a resposta

Geração de código de estágio completo no Spark 2.0

Eu ouvi sobreWhole-Stage Code Generation para sql para otimizar consultas. atravésp539-neumann.pdf [http://www.vldb.org/pvldb/vol4/p539-neumann.pdf] & ...

2 a resposta

Como especificar o dialeto sql ao criar o spark dataframe a partir do JDBC?

Estou com problemas para ler dados via JDBC personalizado com Spark. Como eu substitui o dialeto sql inferido via jdbc url? O banco de dados em questão é vitess (https://github.com/youtube/vitess [https://github.com/youtube/vitess]) que executa ...

2 a resposta

Não é possível converter o tipo <class 'pyspark.ml.linalg.SparseVector'> em Vector

Dado meu objeto Row pyspark: >>> row Row(clicked=0, features=SparseVector(7, {0: 1.0, 3: 1.0, 6: 0.752})) >>> row.clicked 0 >>> row.features SparseVector(7, {0: 1.0, 3: 1.0, 6: 0.752}) >>> type(row.features) <class ...

2 a resposta

Por que a associação falha com "java.util.concurrent.TimeoutException: Futuros atingiram o tempo limite após [300 segundos]"?

Estou usando o Spark 1.5. Eu tenho dois quadros de dados do formulário: scala> libriFirstTable50Plus3DF res1: org.apache.spark.sql.DataFrame = [basket_id: string, family_id: int] scala> linkPersonItemLessThan500DF ...

1 a resposta

Renomeando elementos aninhados no Scala Spark Dataframe

Eu tenho um quadro de dados Spark Scala com uma estrutura aninhada: |-- _History: struct (nullable = true) | |-- Article: array (nullable = true) | | |-- element: struct (containsNull = true) | | | |-- Id: string (nullable = true) | | | |-- ...

3 a resposta

Eliminando várias colunas do dataframe Spark, iterando pelas colunas de uma lista Scala de nomes de colunas

Eu tenho um quadro de dados que tem colunas em torno de 400, quero soltar 100 colunas conforme minha exigência. Então, eu criei uma lista Scala de 100 nomes de colunas. E então eu quero iterar através de um loop for para realmente soltar a coluna ...

1 a resposta

Como desativar a notação científica no pyspark?

Como resultado de alguma agregação, venho com o seguinte sparkdataframe: ------------+-----------------+-----------------+ |sale_user_id|gross_profit |total_sale_volume| +------------+-----------------+-----------------+ | 20569| -3322960.0| ...