Resultados da pesquisa a pedido "apache-spark-sql"
Calculando a duração subtraindo duas colunas de data e hora no formato de sequência
Eu tenho um Spark Dataframe no qual consiste em uma série de datas: from pyspark.sql import SQLContext from pyspark.sql import Row from pyspark.sql.types import * sqlContext = SQLContext(sc) import pandas as pd rdd ...
Como usar o Spark SQL DataFrame com flatMap?
Estou usando a API Spark Scala. Eu tenho um Spark SQL DataFrame (lido de um arquivo Avro) com o seguinte esquema: root |-- ids: array (nullable = true) | |-- element: map (containsNull = true) | | |-- key: integer | | |-- value: string ...
Como classificar por coluna em ordem decrescente no Spark SQL?
eu tenteidf.orderBy("col1").show(10) mas ordenou em ordem crescente.df.sort("col1").show(10) também classifica em ordem decrescente. Eu olhei no stackoverflow e as respostas que encontrei estavam todas desatualizadas oureferido aos ...
Spark - “pacote sbt” - “value $ não é membro de StringContext” - plugin Scala ausente?
Ao executar o "pacote sbt" na linha de comando para um aplicativo Spark Scala pequeno, estou recebendo o erro de compilação "value $ não é membro do StringContext" na seguinte linha de código: val joined = ordered.join(empLogins, $"login" === ...
A estrutura aninhada do Spark DataFrame é limitada para seleção?
Eu tenho um arquivo json com alguns dados, sou capaz de criar o DataFrame a partir dele e o esquema para uma parte específica da qual estou interessado parece o seguinte: val json: DataFrame = sqlc.load("entities_with_address2.json", ...
Apache Spark, adicione uma coluna calculada “CASE WHEN… ELSE…” a um DataFrame existente
Estou tentando adicionar uma coluna calculada "CASE WHEN ... ELSE ..." a um DataFrame existente, usando APIs Scala. Iniciando o dataframe: color Red Green BlueQuadro de dados desejado (sintaxe SQL: CASE WHEN color == Verde THEN 1 ELSE 0 END AS ...
Como escapar nomes de colunas com hífen no Spark SQL
Importei um arquivo json no Spark e o converti em uma tabela como myDF.registerTempTable("myDF")Desejo, então, executar consultas SQL nesta tabela resultante val newTable = sqlContext.sql("select column-1 from myDF")No entanto, isso me dá um ...
Problema com o UDF em uma coluna de vetores no PySpark DataFrame
Estou tendo problemas para usar um UDF em uma coluna de vetores no PySpark, que pode ser ilustrada aqui: from pyspark import SparkContext from pyspark.sql import Row from pyspark.sql.types import DoubleType from pyspark.sql.functions import udf ...
Escreva RDD como arquivo de texto usando o Apache Spark
Estou explorando o Spark para processamento em lote. Estou executando a centelha na minha máquina local usando o modo autônomo. Estou tentando converter o Spark RDD como arquivo único [saída final] usando o método saveTextFile (), mas não está ...
Como definir o particionamento do DataFrame?
Comecei a usar Spark SQL e DataFrames no Spark 1.4.0. Estou querendo definir um particionador personalizado no DataFrames, no Scala, mas não vendo como fazer isso. Uma das tabelas de dados com as quais estou trabalhando contém uma lista ...