Resultados da pesquisa a pedido "spark-dataframe"

7 a resposta

Operador de quadro de dados Pyspark LIKE

Qual é o equivalente no operador Pyspark para LIKE? Por exemplo, eu gostaria de fazer: SELECT * FROM table WHERE column LIKE "*somestring*";procurando algo fácil como este (mas isso não está ...

3 a resposta

Spark 1.6: java.lang.IllegalArgumentException: spark.sql.execution.id já está definido

Estou usando o spark 1.6 e deparo com o problema acima quando executo o seguinte código: // Imports import org.apache.spark.sql.hive.HiveContext import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.sql.SaveMode import ...

2 a resposta

Dataframe do Spark: Pivot e Grupo com base em colunas

Eu tenho o quadro de dados de entrada abaixo, com ID, aplicativo e cliente Dataframe de entrada +--------------------+-----+---------+ | id|app |customer | +--------------------+-----+---------+ |id1 | fw| WM | |id1 | fw| CS | |id2 | fw| CS | ...

3 a resposta

Obter lista de tipos de dados do esquema no Apache Spark

Eu tenho o código a seguir no Spark-Python para obter a lista de nomes do esquema de um DataFrame, que funciona bem, mas como posso obter a lista dos tipos de dados? columnNames = df.schema.namesPor exemplo, algo como: columnTypes = ...

2 a resposta

Como melhorar o desempenho de tarefas lentas do Spark usando a conexão DataFrame e JDBC?

Estou tentando acessar uma tabela Teradata de tamanho médio (~ 100 milhões de linhas) via JDBC no modo autônomo em um único nó (local [*]). Estou usando o Spark 1.4.1. e é configurado em uma máquina muito poderosa (2 cpu, 24 núcleos, 126G ...

2 a resposta

Preenchimento em um Dataframe Pyspark

Eu tenho um quadro de dados Pyspark (Dataframe original) com dados abaixo (todas as colunas têmcordatipo de dados): id Value 1 103 2 1504 3 1Preciso criar um novodataframe modificadocompreenchimentonovalorcoluna, para que o comprimento dessa ...

1 a resposta

Aplicar uma função a uma única coluna de um csv no Spark

Usando o Spark, estou lendo um csv e quero aplicar uma função a uma coluna no csv. Eu tenho algum código que funciona, mas é muito hacky. Qual é a maneira correta de fazer isso? Meu código SparkContext().addPyFile("myfile.py") spark = ...

3 a resposta

Achatar Dataframe Spark aninhado

Existe uma maneira de nivelar um Spark Dataframe arbitrariamente aninhado? A maior parte do trabalho que estou vendo é escrita para um esquema específico e eu gostaria de poder achatar genericamente um Dataframe com diferentes tipos aninhados ...

0 a resposta

Erro SparkR collect () e head () para Spark DataFrame: argumentos implicam número diferente de linhas

Eu li um arquivo em parquet do sistema HDFS: path<-"hdfs://part_2015" AppDF <- parquetFile(sqlContext, path) printSchema(AppDF) root |-- app: binary (nullable = true) |-- category: binary (nullable = true) |-- date: binary (nullable = true) |-- ...

1 a resposta

Como modificar um Spark Dataframe com uma estrutura aninhada complexa?

Eu tenho uma estrutura complexa de DataFrame e gostaria de anular uma coluna facilmente. Criei classes implícitas que conectam funcionalidade e abordam facilmente estruturas 2D DataFrame, mas uma vez que o DataFrame se torna mais complicado com ...