Resultados da pesquisa a pedido "apache-spark-sql"

1 a resposta

Spark combina colunas como matriz aninhada

Como combinar colunas no spark como uma matriz aninhada? val inputSmall = Seq( ("A", 0.3, "B", 0.25), ("A", 0.3, "g", 0.4), ("d", 0.0, "f", 0.1), ("d", 0.0, "d", 0.7), ("A", 0.3, "d", 0.7), ("d", 0.0, "g", 0.4), ("c", 0.2, "B", ...

1 a resposta

A opção ignorar da função jdbc do Pyspark DataFrameWriter ignora a transação inteira ou apenas as linhas ofensivas?

The PysparkDataFrameWriter classe tem umjdbc função [http://spark.apache.org/docs/latest/api/python/pyspark.sql.html#pyspark.sql.DataFrameWriter.jdbc] para escrever um dataframe no sql. Esta função possui um--ignore opção que a documentação diz ...

1 a resposta

Descartando partições vazias do DataFrame no Apache Spark

Tento reparticionar um DataFrame de acordo com uma coluna que o DataFrame possuiN (deixe dizerN=3) valores diferentes na coluna da partiçãox, por exemplo: val myDF = sc.parallelize(Seq(1,1,2,2,3,3)).toDF("x") // create dummy dataO que eu gosto ...

3 a resposta

Scala - Spark In Dataframe recupera, para linha, nome da coluna com valor máximo

Eu tenho um DataFrame: name column1 column2 column3 column4 first 2 1 2.1 5.4 test 1.5 0.5 0.9 3.7 choose 7 2.9 9.1 2.5Eu quero um novo quadro de dados com uma coluna com contem, o nome da coluna com o valor máximo para a linha: | name | ...

1 a resposta

O cache ordenado do Spark DataFrame cria trabalho indesejado

Desejo converter um RDD em um DataFrame e quero armazenar em cache os resultados do RDD: from pyspark.sql import * from pyspark.sql.types import * import pyspark.sql.functions as fn schema = StructType([StructField('t', ...

1 a resposta

Dataframe para Dataset que possui o tipo Qualquer

Recentemente, mudei do Spark 1.6 para o Spark 2.X e gostaria de passar, sempre que possível, de Dataframes para Datasets. Eu tentei um código como este case class MyClass(a : Any, ...) val df = ... df.map(x => MyClass(x.get(0), ...))Como você ...

1 a resposta

Campos anuláveis do esquema do DataFrame do Spark

Eu escrevi o código a seguir no Scala e no Python, no entanto, o DataFrame retornado não parece aplicar os campos não anuláveis no meu esquema que estou aplicando.italianVotes.csv é um arquivo csv com '~' como separador e quatro campos. Estou ...

2 a resposta

Return Seq [Row] do Spark-Scala UDF

Estou usando o Spark com Scala para fazer algum processamento de dados. Eu tenho dados XML mapeados para dataframe. Estou passando um Row como parâmetro para o UDF e tentando extrair dois objetos de tipos complexos como uma lista. Spark está me ...

2 a resposta

Interseção de matriz no Spark SQL

Eu tenho uma tabela com uma coluna de tipo de matriz chamadawriter que tem valores comoarray[value1, value2], array[value2, value3].... etc. estou fazendoself join para obter resultados que tenham valores comuns entre matrizes. Eu ...

0 a resposta

Escalando cada coluna de um quadro de dados

Estou tentando dimensionar todas as colunas de um quadro de dados. Primeiro converto cada coluna em um vetor e depois uso o ml MinMax Scaler. Existe uma maneira melhor / mais elegante de aplicar a mesma função a cada coluna do que simplesmente ...