Resultados da pesquisa a pedido "spark-dataframe"

Eu tenho um fluxo de JSONs com a seguinte estrutura que é convertida em dataframe { "a": 3936, "b": 123, "c": "34", "attributes": { "d": "146", "e": "12", "f": "23" } }O dataframe show functions resulta na seguinte ...

python pyspark

1 a resposta

Como hash PySpark DataFrame para obter um float retornado?

Digamos que eu possua spark frame de dados +--------+-----+ | letter|count| +--------+-----+ | a| 2| | b| 2| | c| 1| +--------+-----+Então eu queria encontrar maldade. Então eu fiz df = df.groupBy().mean('letter')que fornecem um quadro de ...

pyspark python apache-spark

5 a resposta

Converter coluna spark DataFrame em lista python

Eu trabalho em um dataframe com duas colunas, mvv e count. +---+-----+ |mvv|count| +---+-----+ | 1 | 5 | | 2 | 9 | | 3 | 3 | | 4 | 1 |eu gostaria de obter duas lista contendo valores mvv e valor da contagem. Algo como mvv = [1,2,3,4] count = ...

apache-spark parquet apache-spark-sql spark-streaming

4 a resposta

Spark Dataframe validando nomes de colunas para gravações em parquet (scala)

Estou processando eventos usando Dataframes convertidos de um fluxo de eventos JSON que, eventualmente, são gravados no formato Parquet. No entanto, alguns dos eventos JSON contêm espaços nas chaves que eu quero registrar e filtrar / descartar ...

hadoop apache-spark apache-spark-sql scala

3 a resposta

Leia de uma tabela de colméia e escreva de volta usando spark sql

Estou lendo uma tabela do Hive usando o Spark SQL e atribuindo-a a um scala val val x = sqlContext.sql("select * from some_table")Então, estou fazendo algum processamento com o dataframe x e finalmente criando um dataframe y, que tem o esquema ...

apache-spark-sql apache-spark

9 a resposta

Sobrescrever partições específicas no método de gravação spark dataframe

Eu quero sobrescrever partições específicas, em vez de todas, em centelha. Estou tentando o seguinte comando: df.write.orc('maprfs:///hdfs-base-path','overwrite',partitionBy='col4')onde df é o quadro de dados com os dados incrementais a serem ...

apache-spark-sql apache-spark scala

5 a resposta

Como criar o DataFrame a partir da lista de iteráveis do Scala?

Eu tenho o seguinte valor Scala: val values: List[Iterable[Any]] = Traces().evaluate(features).toListe eu quero convertê-lo em um DataFrame. Quando tento o seguinte: sqlContext.createDataFrame(values)Eu recebi este erro: error: overloaded ...

apache-spark dataframe scala apache-spark-sql

1 a resposta

Buscando valores distintos em uma coluna usando o Spark DataFrame

Usando o Spark 1.6.1, preciso buscar valores distintos em uma coluna e, em seguida, executar alguma transformação específica em cima dela. A coluna contém mais de 50 milhões de registros e pode aumentar. Eu entendo que fazer umdistinct.collect() ...

apache-spark scala window-functions

1 a resposta

Como filtrar dados usando funções de janela no spark

Eu tenho os seguintes dados: rowid uid time code 1 1 5 a 2 1 6 b 3 1 7 c 4 2 8 a 5 2 9 c 6 2 9 c 7 2 10 c 8 2 11 a 9 2 12 cAgora eu queria filtrar os dados de forma que eu possa remover as linhas 6 e 7. Para um uid específico, eu quero manter ...

pyspark python jupyter-notebook

4 a resposta

Pyspark: mostra o histograma de uma coluna do quadro de dados

No quadro de dados do pandas, estou usando o seguinte código para plotar o histograma de uma coluna: my_df.hist(column = 'field_1')Existe algo que possa atingir o mesmo objetivo no quadro de dados do pyspark? (Estou no caderno Jupyter) Obrigado!

Página 2 do 12

123 4 5

Resultados da pesquisa a pedido "spark-dataframe"

Os quadros de dados Spark convertem JSON aninhado em colunas separadas

Como hash PySpark DataFrame para obter um float retornado?

Converter coluna spark DataFrame em lista python

Tags populares

Spark Dataframe validando nomes de colunas para gravações em parquet (scala)

Leia de uma tabela de colméia e escreva de volta usando spark sql

Sobrescrever partições específicas no método de gravação spark dataframe

Como criar o DataFrame a partir da lista de iteráveis do Scala?

Buscando valores distintos em uma coluna usando o Spark DataFrame

Como filtrar dados usando funções de janela no spark

Pyspark: mostra o histograma de uma coluna do quadro de dados

Você é muito ativo! É ótimo!

Resultados da pesquisa a pedido "spark-dataframe"

Tags populares