Resultados da pesquisa a pedido "dataframe"

1 a resposta

Aplicando a Função à Coluna Spark Dataframe

Vindo de R, estou acostumado a fazer operações facilmente em colunas. Existe alguma maneira fácil de executar essa função que eu escrevi no scala def round_tenths_place( un_rounded:Double ) : Double = { val rounded ...

2 a resposta

spark.ml StringIndexer lança 'rótulo invisível' em fit ()

Estou preparando um brinquedospark.ml exemplo.Spark version 1.6.0, correndo em cima deOracle JDK version 1.8.0_65, pyspark, notebook ipython. Primeiro, dificilmente tem algo a ver comSpark, ML, StringIndexer: manipulação de etiquetas ...

1 a resposta

lendo folha de excel como dataframe multi-index através de pd.read_excel ()

Estou com dificuldade para ler uma folha de excel compd.read_excel(). Minha tabela do Excel se parece com isso em sua forma bruta: [/imgs/XOgSs.png] Eu esperava que o quadro de dados fosse assim: bar baz foo one two one two one two A B C D E ...

4 a resposta

R data.frame obtém valor da variável que é selecionada por outra variável, vetorizada

Tenho dados que me chegam com muitas variáveis semelhantes, com uma variável adicional que indica quais1 dessas variáveis semelhantes eu realmente quero. Usando um loop, posso procurar o valor correto, mas os dados são grandes, o loop é lento e ...

1 a resposta

Compartilhe o SparkContext entre Java e R Apps sob o mesmo mestre

Então aqui está a configuração. Atualmente, tenho dois aplicativos Spark inicializados. Eu preciso passar dados entre eles (de preferência através de sparkcontext / sqlcontext compartilhado para que eu possa consultar uma tabela temporária). ...

4 a resposta

Extrair int da string no Pandas

Digamos que eu tenho um dataframedf Como A B 1 V2 3 W42 1 S03 2 T02 3 U71Eu quero ter uma nova coluna (no final dedf ou substituir colunaB com isso, porque não importa) que apenas extrai o int da colunaB. É isso que eu quero colunaC se ...

2 a resposta

Os pandas substituem nan, dependendo do tipo

No DataFrane.to_csv, consegui gravar arquivos csv removendonan valores com df = df.replace('None','') df = df.replace('nan','')mas meu problema é que, com essa abordagem, todos os valores de nan serão substituídos por qoutes:'' é possível ...

4 a resposta

Erro _corrupt_record ao ler um arquivo JSON no Spark

Eu tenho esse arquivo JSON { "a": 1, "b": 2 }que foi obtido com o método Python json.dump. Agora, quero ler esse arquivo em um DataFrame no Spark, usando o pyspark. Após a documentação, estou fazendo isso sc = SparkContext () sqlc = SQLContext ...

2 a resposta

Como importar uma tabela com títulos para um quadro de dados usando o módulo pandas

Estou tentando obter informações de uma tabela na internet, como mostrado abaixo. Estou usando o notebook jupyter com python 2.7. Eu quero usar essas informações no módulo panda do Python como quadro de dados. Mas quando eu copio a tabela com ...

1 a resposta

pyspark: Converte DataFrame em RDD [string]

Eu gostaria de converterpyspark.sql.dataframe.DataFrame parapyspark.rdd.RDD[String] Eu converti um DataFramedf para RDDdata: data = df.rdd type (data) ## pyspark.rdd.RDDo novo RDDdata contémRow first = data.first() type(first) ## ...