Resultados da pesquisa a pedido "apache-spark-sql"

2 a resposta

Composição da função de linha do PySpark

Como um exemplo simplificado, tenho um quadro de dados "df" com as colunas "col1, col2" e quero calcular o máximo em linhas após aplicar uma função a cada coluna: def f(x): return (x+1) max_udf=udf(lambda x,y: max(x,y), ...

1 a resposta

Como modificar um Spark Dataframe com uma estrutura aninhada complexa?

Eu tenho uma estrutura complexa de DataFrame e gostaria de anular uma coluna facilmente. Criei classes implícitas que conectam funcionalidade e abordam facilmente estruturas 2D DataFrame, mas uma vez que o DataFrame se torna mais complicado com ...

1 a resposta

Como executar uma instrução Switch com os quadros de dados Apache Spark (Python)

Estou tentando executar uma operação nos meus dados em que um determinado valor será mapeado para uma lista de valores predeterminados, se corresponder a um dos critérios, ou para um valor de retorno caso contrário. Este seria o SQL ...

4 a resposta

Gere um Spark StructType / Schema a partir de uma classe de caso

Se eu quisesse criar umStructType (ou seja, umDataFrame.schema) de umcase class, existe uma maneira de fazer isso sem criar umDataFrame? Eu posso fazer facilmente: case class TestCase(id: Long) val schema = Seq[TestCase]().toDF.schemaMas ...

3 a resposta

Como associar dois DataFrames no Scala e Apache Spark?

Existem dois DataFrames (Scala, Apache Spark 1.6.1) 1) Partidas MatchID | Player1 | Player2 -------------------------------- 1 | John Wayne | John Doe 2 | Ive Fish | San Simon2) Dados Pessoais Player | BirthYear ...

1 a resposta

PySpark convertendo uma coluna do tipo 'map' em várias colunas em um dataframe

EntradaEu tenho uma colunaParameters do tipomap do formulário: >>> from pyspark.sql import SQLContext >>> sqlContext = SQLContext(sc) >>> d = [{'Parameters': {'foo': '1', 'bar': '2', 'baz': 'aaa'}}] >>> df = sqlContext.createDataFrame(d) >>> ...

2 a resposta

Usar o Spark para escrever um arquivo em parquet para s3 sobre s3a é muito lento

Estou tentando escrever umparquet arquivar paraAmazon S3 usandoSpark 1.6.1. O pequenoparquet que eu estou gerando é~2GB uma vez escrito, portanto, não há muitos dados. Estou tentando provarSpark como uma plataforma que eu possa ...

1 a resposta

Como alterar o tipo de coluna de String para Date em DataFrames?

Eu tenho um quadro de dados que tem duas colunas (C, D) são definidas como tipo de coluna de seqüência de caracteres, mas os dados nas colunas são realmente datas. por exemplo, a coluna C tem a data como "01-APR-2015" e a coluna D ...

2 a resposta

Por que o Spark SQL considera o suporte de índices sem importância?

Citando os DataFrames Spark,Conjuntos de dados e manual SQL [http://spark.apache.org/docs/latest/sql-programming-guide.html#unsupported-hive-functionality] : Algumas otimizações do Hive ainda não estão incluídas no Spark. Alguns desses (como ...

1 a resposta

Scala - Primeiro quartil, terceiro quartil e IQR do dataframe spark SQLContext sem Hive

Eu tenho um quadro de dados: data.show() +--------+------+------------------+ | Count| mean| stdev| +--------+------+------------------+ | 5| 6337| 1684.569470220803| | 3| 7224| 567.8250904401182| | 330| 20280|23954.260831863092| | 42| ...