Resultados da pesquisa a pedido "spark-dataframe"
Os quadros de dados Spark convertem JSON aninhado em colunas separadas
Eu tenho um fluxo de JSONs com a seguinte estrutura que é convertida em dataframe { "a": 3936, "b": 123, "c": "34", "attributes": { "d": "146", "e": "12", "f": "23" } }O dataframe show functions resulta na seguinte ...
Como hash PySpark DataFrame para obter um float retornado?
Digamos que eu possua spark frame de dados +--------+-----+ | letter|count| +--------+-----+ | a| 2| | b| 2| | c| 1| +--------+-----+Então eu queria encontrar maldade. Então eu fiz df = df.groupBy().mean('letter')que fornecem um quadro de ...
Converter coluna spark DataFrame em lista python
Eu trabalho em um dataframe com duas colunas, mvv e count. +---+-----+ |mvv|count| +---+-----+ | 1 | 5 | | 2 | 9 | | 3 | 3 | | 4 | 1 |eu gostaria de obter duas lista contendo valores mvv e valor da contagem. Algo como mvv = [1,2,3,4] count = ...
Spark Dataframe validando nomes de colunas para gravações em parquet (scala)
Estou processando eventos usando Dataframes convertidos de um fluxo de eventos JSON que, eventualmente, são gravados no formato Parquet. No entanto, alguns dos eventos JSON contêm espaços nas chaves que eu quero registrar e filtrar / descartar ...
Leia de uma tabela de colméia e escreva de volta usando spark sql
Estou lendo uma tabela do Hive usando o Spark SQL e atribuindo-a a um scala val val x = sqlContext.sql("select * from some_table")Então, estou fazendo algum processamento com o dataframe x e finalmente criando um dataframe y, que tem o esquema ...
Sobrescrever partições específicas no método de gravação spark dataframe
Eu quero sobrescrever partições específicas, em vez de todas, em centelha. Estou tentando o seguinte comando: df.write.orc('maprfs:///hdfs-base-path','overwrite',partitionBy='col4')onde df é o quadro de dados com os dados incrementais a serem ...
Como criar o DataFrame a partir da lista de iteráveis do Scala?
Eu tenho o seguinte valor Scala: val values: List[Iterable[Any]] = Traces().evaluate(features).toListe eu quero convertê-lo em um DataFrame. Quando tento o seguinte: sqlContext.createDataFrame(values)Eu recebi este erro: error: overloaded ...
Buscando valores distintos em uma coluna usando o Spark DataFrame
Usando o Spark 1.6.1, preciso buscar valores distintos em uma coluna e, em seguida, executar alguma transformação específica em cima dela. A coluna contém mais de 50 milhões de registros e pode aumentar. Eu entendo que fazer umdistinct.collect() ...
Como filtrar dados usando funções de janela no spark
Eu tenho os seguintes dados: rowid uid time code 1 1 5 a 2 1 6 b 3 1 7 c 4 2 8 a 5 2 9 c 6 2 9 c 7 2 10 c 8 2 11 a 9 2 12 cAgora eu queria filtrar os dados de forma que eu possa remover as linhas 6 e 7. Para um uid específico, eu quero manter ...
Pyspark: mostra o histograma de uma coluna do quadro de dados
No quadro de dados do pandas, estou usando o seguinte código para plotar o histograma de uma coluna: my_df.hist(column = 'field_1')Existe algo que possa atingir o mesmo objetivo no quadro de dados do pyspark? (Estou no caderno Jupyter) Obrigado!