Resultados da pesquisa a pedido "apache-spark-sql"
Spark combina colunas como matriz aninhada
Como combinar colunas no spark como uma matriz aninhada? val inputSmall = Seq( ("A", 0.3, "B", 0.25), ("A", 0.3, "g", 0.4), ("d", 0.0, "f", 0.1), ("d", 0.0, "d", 0.7), ("A", 0.3, "d", 0.7), ("d", 0.0, "g", 0.4), ("c", 0.2, "B", ...
A opção ignorar da função jdbc do Pyspark DataFrameWriter ignora a transação inteira ou apenas as linhas ofensivas?
The PysparkDataFrameWriter classe tem umjdbc função [http://spark.apache.org/docs/latest/api/python/pyspark.sql.html#pyspark.sql.DataFrameWriter.jdbc] para escrever um dataframe no sql. Esta função possui um--ignore opção que a documentação diz ...
Descartando partições vazias do DataFrame no Apache Spark
Tento reparticionar um DataFrame de acordo com uma coluna que o DataFrame possuiN (deixe dizerN=3) valores diferentes na coluna da partiçãox, por exemplo: val myDF = sc.parallelize(Seq(1,1,2,2,3,3)).toDF("x") // create dummy dataO que eu gosto ...
Scala - Spark In Dataframe recupera, para linha, nome da coluna com valor máximo
Eu tenho um DataFrame: name column1 column2 column3 column4 first 2 1 2.1 5.4 test 1.5 0.5 0.9 3.7 choose 7 2.9 9.1 2.5Eu quero um novo quadro de dados com uma coluna com contem, o nome da coluna com o valor máximo para a linha: | name | ...
O cache ordenado do Spark DataFrame cria trabalho indesejado
Desejo converter um RDD em um DataFrame e quero armazenar em cache os resultados do RDD: from pyspark.sql import * from pyspark.sql.types import * import pyspark.sql.functions as fn schema = StructType([StructField('t', ...
Dataframe para Dataset que possui o tipo Qualquer
Recentemente, mudei do Spark 1.6 para o Spark 2.X e gostaria de passar, sempre que possível, de Dataframes para Datasets. Eu tentei um código como este case class MyClass(a : Any, ...) val df = ... df.map(x => MyClass(x.get(0), ...))Como você ...
Campos anuláveis do esquema do DataFrame do Spark
Eu escrevi o código a seguir no Scala e no Python, no entanto, o DataFrame retornado não parece aplicar os campos não anuláveis no meu esquema que estou aplicando.italianVotes.csv é um arquivo csv com '~' como separador e quatro campos. Estou ...
Return Seq [Row] do Spark-Scala UDF
Estou usando o Spark com Scala para fazer algum processamento de dados. Eu tenho dados XML mapeados para dataframe. Estou passando um Row como parâmetro para o UDF e tentando extrair dois objetos de tipos complexos como uma lista. Spark está me ...
Interseção de matriz no Spark SQL
Eu tenho uma tabela com uma coluna de tipo de matriz chamadawriter que tem valores comoarray[value1, value2], array[value2, value3].... etc. estou fazendoself join para obter resultados que tenham valores comuns entre matrizes. Eu ...
Escalando cada coluna de um quadro de dados
Estou tentando dimensionar todas as colunas de um quadro de dados. Primeiro converto cada coluna em um vetor e depois uso o ml MinMax Scaler. Existe uma maneira melhor / mais elegante de aplicar a mesma função a cada coluna do que simplesmente ...