Resultados da pesquisa a pedido "dataframe"

3 a resposta

Como posso criar um Spark DataFrame a partir de uma matriz aninhada do elemento struct?

Eu li um arquivo JSON no Spark. Este arquivo tem a seguinte estrutura: scala> tweetBlob.printSchema root |-- related: struct (nullable = true) | |-- next: struct (nullable = true) | | |-- href: string (nullable = true) |-- search: struct ...

8 a resposta

Como selecionar a primeira linha de cada grupo?

Eu tenho um DataFrame gerado da seguinte maneira: df.groupBy($"Hour", $"Category") .agg(sum($"value") as "TotalValue") .sort($"Hour".asc, $"TotalValue".desc))Os resultados são parecidos com: +----+--------+----------+ |Hour|Category|TotalValue| ...

6 a resposta

Como posso alterar o XTS para data.frame e manter o Index?

Eu tenho uma série de tempo XTS no R do seguinte formato e estou tentando fazer algum processamento, subconjunto e reorganização antes de exportar como um CSV para trabalhar em outro programa. head(master_1) S_1 2010-03-03 00:00:00 2.8520 ...

2 a resposta

Contar o número de entradas não-NaN em cada coluna do dataframe Spark com o Pyspark

Eu tenho um conjunto de dados muito grande carregado no Hive. Consiste em cerca de 1,9 milhões de linhas e 1450 colunas. Preciso determinar a "cobertura" de cada uma das colunas, ou seja, a fração de linhas que possuem valores não NaN para cada ...

2 a resposta

Calcular a média de duas colunas em um dataframe

Eu tenho um dataframe armazenando valores diferentes. Amostra: a$open a$high a$low a$close 1.08648 1.08707 1.08476 1.08551 1.08552 1.08623 1.08426 1.08542 1.08542 1.08572 1.08453 1.08465 1.08468 1.08566 1.08402 1.08554 1.08552 1.08565 1.08436 ...

2 a resposta

Produto cartesiano de duas séries, comprimentos e índices diferentes

Dadas duas séries: import pandas as pd ser1 = pd.Series(data = [1,2,3], index=[1,2,3]) ser2 = pd.Series(data = [1,2,3,4,5], index = ['a','b','c','d','e'])Como posso multiplicar cruzadamente os dois para obter a saída desejada? pd.DataFrame( ...

2 a resposta

Classificando dinamicamente colunas no dplyr, passando o vetor ordenado com nomes de colunas para selecionar

Estou usando o código abaixo para gerar uma tabela de resumo simples: # Data data("mtcars") # Lib require(dplyr) # Summary mt_sum <- mtcars %>% group_by(am) %>% summarise_each(funs(min, mean, median, max), mpg, cyl) %>% mutate(am = ...

3 a resposta

Atribuir valores a várias colunas no Pandas

Eu sigo simples DataFrame -df: 0 0 1 1 2 2 3Uma vez eu tento criar uma nova coluna e atribuir alguns valores para elas, como exemplo abaixo: df['col2', 'col3'] = [(2,3), (2,3), (2,3)]Eu tenho a seguinte estrutura 0 (col2, col3) 0 1 (2, 3) 1 2 ...

2 a resposta

Como iterar nos níveis do MultiIndex no Pandas?

Costumo ter índices MultiIndex e gostaria de repetir grupos onde os índices de nível mais alto são iguais. Basicamente, parece from random import choice import pandas as pd N = 100 df = pd.DataFrame([choice([1, 2, 3]) for _ in range(N)], ...

2 a resposta

python pandas - aplica função com dois argumentos a colunas

Você pode fazer os pandas python funcionarem com valores em duas colunas diferentes como argumentos? Eu tenho uma função que retorna 1 se duas colunas tiverem valores no mesmo intervalo. caso contrário, ele retornará 0: def ...