Resultados da pesquisa a pedido "apache-spark-sql"

6 a resposta

Calculando a duração subtraindo duas colunas de data e hora no formato de sequência

Eu tenho um Spark Dataframe no qual consiste em uma série de datas: from pyspark.sql import SQLContext from pyspark.sql import Row from pyspark.sql.types import * sqlContext = SQLContext(sc) import pandas as pd rdd ...

2 a resposta

Como usar o Spark SQL DataFrame com flatMap?

Estou usando a API Spark Scala. Eu tenho um Spark SQL DataFrame (lido de um arquivo Avro) com o seguinte esquema: root |-- ids: array (nullable = true) | |-- element: map (containsNull = true) | | |-- key: integer | | |-- value: string ...

6 a resposta

Como classificar por coluna em ordem decrescente no Spark SQL?

eu tenteidf.orderBy("col1").show(10) mas ordenou em ordem crescente.df.sort("col1").show(10) também classifica em ordem decrescente. Eu olhei no stackoverflow e as respostas que encontrei estavam todas desatualizadas oureferido aos ...

3 a resposta

Spark - “pacote sbt” - “value $ não é membro de StringContext” - plugin Scala ausente?

Ao executar o "pacote sbt" na linha de comando para um aplicativo Spark Scala pequeno, estou recebendo o erro de compilação "value $ não é membro do StringContext" na seguinte linha de código: val joined = ordered.join(empLogins, $"login" === ...

1 a resposta

A estrutura aninhada do Spark DataFrame é limitada para seleção?

Eu tenho um arquivo json com alguns dados, sou capaz de criar o DataFrame a partir dele e o esquema para uma parte específica da qual estou interessado parece o seguinte: val json: DataFrame = sqlc.load("entities_with_address2.json", ...

4 a resposta

Apache Spark, adicione uma coluna calculada “CASE WHEN… ELSE…” a um DataFrame existente

Estou tentando adicionar uma coluna calculada "CASE WHEN ... ELSE ..." a um DataFrame existente, usando APIs Scala. Iniciando o dataframe: color Red Green BlueQuadro de dados desejado (sintaxe SQL: CASE WHEN color == Verde THEN 1 ELSE 0 END AS ...

3 a resposta

Como escapar nomes de colunas com hífen no Spark SQL

Importei um arquivo json no Spark e o converti em uma tabela como myDF.registerTempTable("myDF")Desejo, então, executar consultas SQL nesta tabela resultante val newTable = sqlContext.sql("select column-1 from myDF")No entanto, isso me dá um ...

1 a resposta

Problema com o UDF em uma coluna de vetores no PySpark DataFrame

Estou tendo problemas para usar um UDF em uma coluna de vetores no PySpark, que pode ser ilustrada aqui: from pyspark import SparkContext from pyspark.sql import Row from pyspark.sql.types import DoubleType from pyspark.sql.functions import udf ...

5 a resposta

Escreva RDD como arquivo de texto usando o Apache Spark

Estou explorando o Spark para processamento em lote. Estou executando a centelha na minha máquina local usando o modo autônomo. Estou tentando converter o Spark RDD como arquivo único [saída final] usando o método saveTextFile (), mas não está ...

5 a resposta

Como definir o particionamento do DataFrame?

Comecei a usar Spark SQL e DataFrames no Spark 1.4.0. Estou querendo definir um particionador personalizado no DataFrames, no Scala, mas não vendo como fazer isso. Uma das tabelas de dados com as quais estou trabalhando contém uma lista ...