Resultados da pesquisa a pedido "apache-spark-sql"
Composição da função de linha do PySpark
Como um exemplo simplificado, tenho um quadro de dados "df" com as colunas "col1, col2" e quero calcular o máximo em linhas após aplicar uma função a cada coluna: def f(x): return (x+1) max_udf=udf(lambda x,y: max(x,y), ...
Como modificar um Spark Dataframe com uma estrutura aninhada complexa?
Eu tenho uma estrutura complexa de DataFrame e gostaria de anular uma coluna facilmente. Criei classes implícitas que conectam funcionalidade e abordam facilmente estruturas 2D DataFrame, mas uma vez que o DataFrame se torna mais complicado com ...
Como executar uma instrução Switch com os quadros de dados Apache Spark (Python)
Estou tentando executar uma operação nos meus dados em que um determinado valor será mapeado para uma lista de valores predeterminados, se corresponder a um dos critérios, ou para um valor de retorno caso contrário. Este seria o SQL ...
Gere um Spark StructType / Schema a partir de uma classe de caso
Se eu quisesse criar umStructType (ou seja, umDataFrame.schema) de umcase class, existe uma maneira de fazer isso sem criar umDataFrame? Eu posso fazer facilmente: case class TestCase(id: Long) val schema = Seq[TestCase]().toDF.schemaMas ...
Como associar dois DataFrames no Scala e Apache Spark?
Existem dois DataFrames (Scala, Apache Spark 1.6.1) 1) Partidas MatchID | Player1 | Player2 -------------------------------- 1 | John Wayne | John Doe 2 | Ive Fish | San Simon2) Dados Pessoais Player | BirthYear ...
PySpark convertendo uma coluna do tipo 'map' em várias colunas em um dataframe
EntradaEu tenho uma colunaParameters do tipomap do formulário: >>> from pyspark.sql import SQLContext >>> sqlContext = SQLContext(sc) >>> d = [{'Parameters': {'foo': '1', 'bar': '2', 'baz': 'aaa'}}] >>> df = sqlContext.createDataFrame(d) >>> ...
Usar o Spark para escrever um arquivo em parquet para s3 sobre s3a é muito lento
Estou tentando escrever umparquet arquivar paraAmazon S3 usandoSpark 1.6.1. O pequenoparquet que eu estou gerando é~2GB uma vez escrito, portanto, não há muitos dados. Estou tentando provarSpark como uma plataforma que eu possa ...
Como alterar o tipo de coluna de String para Date em DataFrames?
Eu tenho um quadro de dados que tem duas colunas (C, D) são definidas como tipo de coluna de seqüência de caracteres, mas os dados nas colunas são realmente datas. por exemplo, a coluna C tem a data como "01-APR-2015" e a coluna D ...
Por que o Spark SQL considera o suporte de índices sem importância?
Citando os DataFrames Spark,Conjuntos de dados e manual SQL [http://spark.apache.org/docs/latest/sql-programming-guide.html#unsupported-hive-functionality] : Algumas otimizações do Hive ainda não estão incluídas no Spark. Alguns desses (como ...
Scala - Primeiro quartil, terceiro quartil e IQR do dataframe spark SQLContext sem Hive
Eu tenho um quadro de dados: data.show() +--------+------+------------------+ | Count| mean| stdev| +--------+------+------------------+ | 5| 6337| 1684.569470220803| | 3| 7224| 567.8250904401182| | 330| 20280|23954.260831863092| | 42| ...