Resultados da pesquisa a pedido "apache-spark-sql"

Alguém pode explicar sobre o número de partições que serão criadas para um Spark Dataframe. Eu sei que para um RDD, ao criá-lo, podemos mencionar o número de partições como abaixo. val RDD1 = sc.textFile("path" , 6)Mas, para o quadro de dados ...

pyspark apache-spark

1 a resposta

Contagem máxima de colunas do Spark Dataframe

Qual é a contagem máxima de colunas do Spark Dataframe? Tentei obtê-lo da documentação do quadro de dados, mas não consegui encontrá-lo.

apache-spark

8 a resposta

Como realizar a união em dois DataFrames com diferentes quantidades de colunas no spark?

eu tenho 2DataFrames como segue: [/imgs/L4qs0.png] Eu preciso de união assim: [/imgs/mdICY.png] ounionAll A função não funciona porque o número e o nome das colunas são diferentes. Como posso fazer isso?

apache-spark

1 a resposta

Geração de código de estágio completo no Spark 2.0

Eu ouvi sobreWhole-Stage Code Generation para sql para otimizar consultas. atravésp539-neumann.pdf [http://www.vldb.org/pvldb/vol4/p539-neumann.pdf] & ...

apache-spark-2.0 vitess jdbc apache-spark

2 a resposta

Como especificar o dialeto sql ao criar o spark dataframe a partir do JDBC?

Estou com problemas para ler dados via JDBC personalizado com Spark. Como eu substitui o dialeto sql inferido via jdbc url? O banco de dados em questão é vitess (https://github.com/youtube/vitess [https://github.com/youtube/vitess]) que executa ...

apache-spark pyspark apache-spark-mllib apache-spark-ml

2 a resposta

Não é possível converter o tipo <class 'pyspark.ml.linalg.SparseVector'> em Vector

Dado meu objeto Row pyspark: >>> row Row(clicked=0, features=SparseVector(7, {0: 1.0, 3: 1.0, 6: 0.752})) >>> row.clicked 0 >>> row.features SparseVector(7, {0: 1.0, 3: 1.0, 6: 0.752}) >>> type(row.features) <class ...

join apache-spark scala

2 a resposta

Por que a associação falha com "java.util.concurrent.TimeoutException: Futuros atingiram o tempo limite após [300 segundos]"?

Estou usando o Spark 1.5. Eu tenho dois quadros de dados do formulário: scala> libriFirstTable50Plus3DF res1: org.apache.spark.sql.DataFrame = [basket_id: string, family_id: int] scala> linkPersonItemLessThan500DF ...

scala apache-spark nested

1 a resposta

Renomeando elementos aninhados no Scala Spark Dataframe

scala apache-spark

3 a resposta

Eliminando várias colunas do dataframe Spark, iterando pelas colunas de uma lista Scala de nomes de colunas

Eu tenho um quadro de dados que tem colunas em torno de 400, quero soltar 100 colunas conforme minha exigência. Então, eu criei uma lista Scala de 100 nomes de colunas. E então eu quero iterar através de um loop for para realmente soltar a coluna ...

pyspark apache-spark spark-dataframe

1 a resposta

Como desativar a notação científica no pyspark?

Como resultado de alguma agregação, venho com o seguinte sparkdataframe: ------------+-----------------+-----------------+ |sale_user_id|gross_profit |total_sale_volume| +------------+-----------------+-----------------+ | 20569| -3322960.0| ...

Página 8 do 52

6 789 10

Resultados da pesquisa a pedido "apache-spark-sql"

Número de partições do Spark Dataframe

Contagem máxima de colunas do Spark Dataframe

Como realizar a união em dois DataFrames com diferentes quantidades de colunas no spark?

Tags populares

Geração de código de estágio completo no Spark 2.0

Como especificar o dialeto sql ao criar o spark dataframe a partir do JDBC?

Não é possível converter o tipo <class 'pyspark.ml.linalg.SparseVector'> em Vector

Por que a associação falha com "java.util.concurrent.TimeoutException: Futuros atingiram o tempo limite após [300 segundos]"?

Renomeando elementos aninhados no Scala Spark Dataframe

Eliminando várias colunas do dataframe Spark, iterando pelas colunas de uma lista Scala de nomes de colunas

Como desativar a notação científica no pyspark?

Você é muito ativo! É ótimo!

Resultados da pesquisa a pedido "apache-spark-sql"

Tags populares