Resultados da pesquisa a pedido "pyspark"

4 a resposta

Atualizando uma coluna de quadro de dados no spark

Observando a nova API do spark dataframe, não está claro se é possível modificar as colunas do dataframe. Como eu alteraria um valor na linhax colunay de um quadro de dados? Nopandas este seriadf.ix[x,y] = new_value Edit: consolidando o que ...

1 a resposta

Especifique várias alterações de tipo de dados de colunas para diferentes tipos de dados no pyspark

Eu tenho um DataFrame (df), que consiste em mais de 50 colunas e diferentes tipos de dados, como df3.printSchema() CtpJobId: string (nullable = true) |-- TransformJobStateId: string (nullable = true) |-- LastError: string (nullable = true) ...

2 a resposta

escalabilidade de centelha: o que estou fazendo de errado?

Estou processando dados com spark e ele funciona com um dia de dados (40G), mas falha comOOMem uma semana de dados: import pyspark import datetime import operator sc = pyspark.SparkContext() sqc = pyspark.sql.SQLContext(sc) ...

1 a resposta

Especifique opções para a jvm ativada pelo pyspark

Como / onde as opções da jvm são usadas pelo script pyspark ao iniciar a jvm à qual ele se conecta especificado? Estou especificamente interessado em especificar opções de depuração da jvm, ...

1 a resposta

pyspark: dependência de jar de navio com envio de faísca

Eu escrevi um script pyspark que lê dois arquivos json,coGroup eles e envia o resultado para um cluster de pesquisa elástica; tudo funciona (principalmente) conforme o esperado quando eu o executo localmente, baixei oelasticsearch-hadoop arquivo ...

2 a resposta

Como agrupar por várias chaves no spark?

Eu tenho um monte de tuplas que estão na forma de chaves e valores compostos. Por exemplo, tfile.collect() = [(('id1','pd1','t1'),5.0), (('id2','pd2','t2'),6.0), (('id1','pd1','t2'),7.5), (('id1','pd1','t3'),8.1) ]Quero executar operações como ...

1 a resposta

Como transformar fluxos estruturados com P, ySpark?

Parece que deveria ser óbvio, mas, ao revisar os documentos e os exemplos, não tenho certeza de encontrar uma maneira de obter um fluxo estruturado e transformar usando o PySpark. Por exemplo: from pyspark.sql import SparkSession spark = ( ...

2 a resposta

Aplicação em execução Spark Spark

Eu tenho um aplicativo Spark em execução, onde ele ocupa todos os núcleos, onde meus outros aplicativos não receberão nenhum recurso. Eu fiz uma pesquisa rápida e as pessoas sugeriram o uso do YARN kill ou / bin / spark-class para matar o ...

6 a resposta

Como excluir colunas no pyspark dataframe

>>> a DataFrame[id: bigint, julian_date: string, user_id: bigint] >>> b DataFrame[id: bigint, quan_created_money: decimal(10,0), quan_created_cnt: bigint] >>> a.join(b, a.id==b.id, 'outer') DataFrame[id: bigint, julian_date: string, user_id: ...

1 a resposta

enviar script .py no Spark sem instalação do Hadoop

Eu tenho o seguinte script Python de contagem de palavras simples. from pyspark import SparkConf, SparkContext conf = SparkConf().setMaster("local").setAppName("My App") sc = SparkContext(conf = conf) from operator import add ...