Resultados da pesquisa a pedido "spark-dataframe"

3 a resposta

Os quadros de dados Spark convertem JSON aninhado em colunas separadas

Eu tenho um fluxo de JSONs com a seguinte estrutura que é convertida em dataframe { "a": 3936, "b": 123, "c": "34", "attributes": { "d": "146", "e": "12", "f": "23" } }O dataframe show functions resulta na seguinte ...

1 a resposta

Como hash PySpark DataFrame para obter um float retornado?

Digamos que eu possua spark frame de dados +--------+-----+ | letter|count| +--------+-----+ | a| 2| | b| 2| | c| 1| +--------+-----+Então eu queria encontrar maldade. Então eu fiz df = df.groupBy().mean('letter')que fornecem um quadro de ...

5 a resposta

Converter coluna spark DataFrame em lista python

Eu trabalho em um dataframe com duas colunas, mvv e count. +---+-----+ |mvv|count| +---+-----+ | 1 | 5 | | 2 | 9 | | 3 | 3 | | 4 | 1 |eu gostaria de obter duas lista contendo valores mvv e valor da contagem. Algo como mvv = [1,2,3,4] count = ...

4 a resposta

Spark Dataframe validando nomes de colunas para gravações em parquet (scala)

Estou processando eventos usando Dataframes convertidos de um fluxo de eventos JSON que, eventualmente, são gravados no formato Parquet. No entanto, alguns dos eventos JSON contêm espaços nas chaves que eu quero registrar e filtrar / descartar ...

3 a resposta

Leia de uma tabela de colméia e escreva de volta usando spark sql

Estou lendo uma tabela do Hive usando o Spark SQL e atribuindo-a a um scala val val x = sqlContext.sql("select * from some_table")Então, estou fazendo algum processamento com o dataframe x e finalmente criando um dataframe y, que tem o esquema ...

9 a resposta

Sobrescrever partições específicas no método de gravação spark dataframe

Eu quero sobrescrever partições específicas, em vez de todas, em centelha. Estou tentando o seguinte comando: df.write.orc('maprfs:///hdfs-base-path','overwrite',partitionBy='col4')onde df é o quadro de dados com os dados incrementais a serem ...

5 a resposta

Como criar o DataFrame a partir da lista de iteráveis do Scala?

Eu tenho o seguinte valor Scala: val values: List[Iterable[Any]] = Traces().evaluate(features).toListe eu quero convertê-lo em um DataFrame. Quando tento o seguinte: sqlContext.createDataFrame(values)Eu recebi este erro: error: overloaded ...

1 a resposta

Buscando valores distintos em uma coluna usando o Spark DataFrame

Usando o Spark 1.6.1, preciso buscar valores distintos em uma coluna e, em seguida, executar alguma transformação específica em cima dela. A coluna contém mais de 50 milhões de registros e pode aumentar. Eu entendo que fazer umdistinct.collect() ...

1 a resposta

Como filtrar dados usando funções de janela no spark

Eu tenho os seguintes dados: rowid uid time code 1 1 5 a 2 1 6 b 3 1 7 c 4 2 8 a 5 2 9 c 6 2 9 c 7 2 10 c 8 2 11 a 9 2 12 cAgora eu queria filtrar os dados de forma que eu possa remover as linhas 6 e 7. Para um uid específico, eu quero manter ...

4 a resposta

Pyspark: mostra o histograma de uma coluna do quadro de dados

No quadro de dados do pandas, estou usando o seguinte código para plotar o histograma de uma coluna: my_df.hist(column = 'field_1')Existe algo que possa atingir o mesmo objetivo no quadro de dados do pyspark? (Estou no caderno Jupyter) Obrigado!