Resultados da pesquisa a pedido "pyspark"
Atualizando uma coluna de quadro de dados no spark
Observando a nova API do spark dataframe, não está claro se é possível modificar as colunas do dataframe. Como eu alteraria um valor na linhax colunay de um quadro de dados? Nopandas este seriadf.ix[x,y] = new_value Edit: consolidando o que ...
Especifique várias alterações de tipo de dados de colunas para diferentes tipos de dados no pyspark
Eu tenho um DataFrame (df), que consiste em mais de 50 colunas e diferentes tipos de dados, como df3.printSchema() CtpJobId: string (nullable = true) |-- TransformJobStateId: string (nullable = true) |-- LastError: string (nullable = true) ...
escalabilidade de centelha: o que estou fazendo de errado?
Estou processando dados com spark e ele funciona com um dia de dados (40G), mas falha comOOMem uma semana de dados: import pyspark import datetime import operator sc = pyspark.SparkContext() sqc = pyspark.sql.SQLContext(sc) ...
Especifique opções para a jvm ativada pelo pyspark
Como / onde as opções da jvm são usadas pelo script pyspark ao iniciar a jvm à qual ele se conecta especificado? Estou especificamente interessado em especificar opções de depuração da jvm, ...
pyspark: dependência de jar de navio com envio de faísca
Eu escrevi um script pyspark que lê dois arquivos json,coGroup eles e envia o resultado para um cluster de pesquisa elástica; tudo funciona (principalmente) conforme o esperado quando eu o executo localmente, baixei oelasticsearch-hadoop arquivo ...
Como agrupar por várias chaves no spark?
Eu tenho um monte de tuplas que estão na forma de chaves e valores compostos. Por exemplo, tfile.collect() = [(('id1','pd1','t1'),5.0), (('id2','pd2','t2'),6.0), (('id1','pd1','t2'),7.5), (('id1','pd1','t3'),8.1) ]Quero executar operações como ...
Como transformar fluxos estruturados com P, ySpark?
Parece que deveria ser óbvio, mas, ao revisar os documentos e os exemplos, não tenho certeza de encontrar uma maneira de obter um fluxo estruturado e transformar usando o PySpark. Por exemplo: from pyspark.sql import SparkSession spark = ( ...
Aplicação em execução Spark Spark
Eu tenho um aplicativo Spark em execução, onde ele ocupa todos os núcleos, onde meus outros aplicativos não receberão nenhum recurso. Eu fiz uma pesquisa rápida e as pessoas sugeriram o uso do YARN kill ou / bin / spark-class para matar o ...
Como excluir colunas no pyspark dataframe
>>> a DataFrame[id: bigint, julian_date: string, user_id: bigint] >>> b DataFrame[id: bigint, quan_created_money: decimal(10,0), quan_created_cnt: bigint] >>> a.join(b, a.id==b.id, 'outer') DataFrame[id: bigint, julian_date: string, user_id: ...
enviar script .py no Spark sem instalação do Hadoop
Eu tenho o seguinte script Python de contagem de palavras simples. from pyspark import SparkConf, SparkContext conf = SparkConf().setMaster("local").setAppName("My App") sc = SparkContext(conf = conf) from operator import add ...