Resultados da pesquisa a pedido "apache-spark-sql"
Número de partições do Spark Dataframe
Alguém pode explicar sobre o número de partições que serão criadas para um Spark Dataframe. Eu sei que para um RDD, ao criá-lo, podemos mencionar o número de partições como abaixo. val RDD1 = sc.textFile("path" , 6)Mas, para o quadro de dados ...
Contagem máxima de colunas do Spark Dataframe
Qual é a contagem máxima de colunas do Spark Dataframe? Tentei obtê-lo da documentação do quadro de dados, mas não consegui encontrá-lo.
Como realizar a união em dois DataFrames com diferentes quantidades de colunas no spark?
eu tenho 2DataFrames como segue: [/imgs/L4qs0.png] Eu preciso de união assim: [/imgs/mdICY.png] ounionAll A função não funciona porque o número e o nome das colunas são diferentes. Como posso fazer isso?
Geração de código de estágio completo no Spark 2.0
Eu ouvi sobreWhole-Stage Code Generation para sql para otimizar consultas. atravésp539-neumann.pdf [http://www.vldb.org/pvldb/vol4/p539-neumann.pdf] & ...
Como especificar o dialeto sql ao criar o spark dataframe a partir do JDBC?
Estou com problemas para ler dados via JDBC personalizado com Spark. Como eu substitui o dialeto sql inferido via jdbc url? O banco de dados em questão é vitess (https://github.com/youtube/vitess [https://github.com/youtube/vitess]) que executa ...
Não é possível converter o tipo <class 'pyspark.ml.linalg.SparseVector'> em Vector
Dado meu objeto Row pyspark: >>> row Row(clicked=0, features=SparseVector(7, {0: 1.0, 3: 1.0, 6: 0.752})) >>> row.clicked 0 >>> row.features SparseVector(7, {0: 1.0, 3: 1.0, 6: 0.752}) >>> type(row.features) <class ...
Por que a associação falha com "java.util.concurrent.TimeoutException: Futuros atingiram o tempo limite após [300 segundos]"?
Estou usando o Spark 1.5. Eu tenho dois quadros de dados do formulário: scala> libriFirstTable50Plus3DF res1: org.apache.spark.sql.DataFrame = [basket_id: string, family_id: int] scala> linkPersonItemLessThan500DF ...
Renomeando elementos aninhados no Scala Spark Dataframe
Eu tenho um quadro de dados Spark Scala com uma estrutura aninhada: |-- _History: struct (nullable = true) | |-- Article: array (nullable = true) | | |-- element: struct (containsNull = true) | | | |-- Id: string (nullable = true) | | | |-- ...
Eliminando várias colunas do dataframe Spark, iterando pelas colunas de uma lista Scala de nomes de colunas
Eu tenho um quadro de dados que tem colunas em torno de 400, quero soltar 100 colunas conforme minha exigência. Então, eu criei uma lista Scala de 100 nomes de colunas. E então eu quero iterar através de um loop for para realmente soltar a coluna ...
Como desativar a notação científica no pyspark?
Como resultado de alguma agregação, venho com o seguinte sparkdataframe: ------------+-----------------+-----------------+ |sale_user_id|gross_profit |total_sale_volume| +------------+-----------------+-----------------+ | 20569| -3322960.0| ...