Resultados da pesquisa a pedido "apache-spark-sql"

1 a resposta

Convertendo uma string para dobrar em um dataframe

Eu construí um quadro de dados usandoconcat que produz uma string. import sqlContext.implicits._ val df = sc.parallelize(Seq((1.0, 2.0), (3.0, 4.0))).toDF("k", "v") df.registerTempTable("df") val dfConcat = df.select(concat($"k", lit(","), ...

1 a resposta

O spark-sql suporta vários delimitadores nos dados de entrada?

Eu tenho dados de entrada com vários delimitadores de caracteres únicos, conforme a seguir: col1data1"col2data1;col3data1"col4data1 col1data2"col2data2;col3data2"col4data2 col1data3"col2data3;col3data3"col4data3Nos dados acima, os ["], [;] são ...

1 a resposta

Como filtrar com base no valor do array no PySpark?

Meu esquema: |-- Canonical_URL: string (nullable = true) |-- Certifications: array (nullable = true) | |-- element: struct (containsNull = true) | | |-- Certification_Authority: string (nullable = true) | | |-- End: string (nullable = true) | | ...

5 a resposta

Exceção do Spark: tarefa falhou ao gravar linhas

Estou lendo arquivos de texto e convertendo-os em arquivos em parquet. Estou fazendo isso usando o código spark. Mas quando tento executar o código, recebo a seguinte exceção org.apache.spark.SparkException: Job aborted due to stage failure: ...

2 a resposta

Spark SQL - Como gravar DataFrame em arquivo de texto?

estou usandoSpark SQL para ler parquet e escrever arquivo em parquet. Mas alguns casos, eu preciso escrever oDataFrame como arquivo de texto em vez de Json ou Parquet. Existe algum método padrão suportado ou eu tenho que converter esse ...

3 a resposta

Pyspark: preenchimento para frente com última observação para um DataFrame

Usando o Spark 1.5.1, Eu tenho tentado encaminhar preenchimentovalores nuloscom a última observação conhecida parauma colunado meu DataFrame. É possível começar com um valor nulo e, nesse caso, eu preencheria esse valor nulo com a primeira ...

6 a resposta

Fazendo histograma com a coluna Spark DataFrame

Estou tentando fazer um histograma com uma coluna de um dataframe que se parece com DataFrame[C0: int, C1: int, ...]Se eu fizesse um histograma com a coluna C1, o que devo fazer? Algumas coisas que eu tentei ...

2 a resposta

Exceção do Apache Spark no encadeamento “main” java.lang.NoClassDefFoundError: scala / collection / GenTraversableOnce $ class

Versão Scala: 2.11.7 (foi necessário atualizar o scala verison para permitir que a classe de caso aceite mais de 22 parâmetros.) Versão Spark: 1.6.1 PFB pom.xml Ficando abaixo do erro ao tentar configurar o spark no intellij IDE, 16/03/16 ...

3 a resposta

PySpark: cuspir arquivo único ao escrever em vez de vários arquivos de peça

Existe uma maneira de impedir que o PySpark crie vários arquivos pequenos ao gravar um DataFrame em um arquivo JSON? Se eu correr: df.write.format('json').save('myfile.json')ou df1.write.json('myfile.json')ele cria a pasta chamadamyfile e ...

3 a resposta

Linha Spark para JSON

Gostaria de criar um JSON a partir de um dataframe Spark v.1.6 (usando scala). Eu sei que existe a solução simples de fazerdf.toJSON. No entanto, meu problema parece um pouco diferente. Considere, por exemplo, um quadro de dados com as seguintes ...