Resultados da pesquisa a pedido "pyspark"

4 a resposta

Atualizando uma coluna de quadro de dados no spark

Observando a nova API do spark dataframe, não está claro se é possível modificar as colunas do dataframe. Como eu alteraria um valor na linhax colunay de um quadro de dados? Nopandas este seriadf.ix[x,y] = new_value Edit: consolidando o que ...

3 a resposta

entrada (nula) na exceção da cadeia de comandos em saveAsTextFile () no Pyspark

Estou trabalhando no PySpark em um notebook Jupyter (Python 2.7) no Windows 7. Tenho um RDD do tipopyspark.rdd.PipelinedRDD chamadoidSums. Ao tentar executaridSums.saveAsTextFile("Output"), Recebo o seguinte erro: Py4JJavaError: An error ...

1 a resposta

Como passar um valor constante para o Python UDF?

Eu estava pensando se era possível criar umUDF que recebe dois argumentos porColumn e outra variável (Object,Dictionary, ou qualquer outro tipo), faça algumas operações e retorne o resultado. Na verdade, tentei fazer isso, mas tive uma exceção. ...

2 a resposta

Como escrever um objeto de conjunto de dados para se destacar no spark java?

Estou lendo o arquivo excel usandocom.crealytics.spark.excelpacote. Abaixo está o código para ler um arquivo excel no spark java. Dataset<Row> SourcePropertSet = sqlContext.read() .format("com.crealytics.spark.excel") .option("location", ...

2 a resposta

Conecte-se aos dados S3 do PySpark

Estou tentando ler um arquivo JSON, do Amazon s3, para criar um contexto de faísca e usá-lo para processar os dados. O Spark está basicamente em um contêiner de encaixe. Portanto, colocar arquivos no caminho do docker também é PITA. Por isso, ...

3 a resposta

Interface do usuário do Spark mostrando 0 núcleos, mesmo ao definir núcleos no aplicativo

Estou tendo um problema estranho com a execução de um aplicativo fora do URL mestre do spark, em que a interface do usuário está relatando um "STATE" de "WAITING" indefinidamente, pois 0 núcleos estão aparecendo na tabela RUNNING APPLICATIONs, ...

2 a resposta

Como agrupar por várias chaves no spark?

Eu tenho um monte de tuplas que estão na forma de chaves e valores compostos. Por exemplo, tfile.collect() = [(('id1','pd1','t1'),5.0), (('id2','pd2','t2'),6.0), (('id1','pd1','t2'),7.5), (('id1','pd1','t3'),8.1) ]Quero executar operações como ...

6 a resposta

Remodelagem / rotação de dados no Spark RDD e / ou Spark DataFrames

Eu tenho alguns dados no seguinte formato (RDD ou Spark DataFrame): from pyspark.sql import SQLContext sqlContext = SQLContext(sc) rdd = sc.parallelize([('X01',41,'US',3), ('X01',41,'UK',1), ('X01',41,'CA',2), ('X02',72,'US',4), ...

1 a resposta

Como criar um json aninhado no Pyspark?

Estou tentando criar um json aninhado a partir dos dados abaixo. Somente os nomes dos campos comosegid eval são constantes, o resto não é constante. Eu preciso colocá-los na lista de categorias. Poderia ajudar por favor [/imgs/NRMzc.png] ...

1 a resposta

Selecionando apenas nomes de colunas numéricas / de seqüência de caracteres de um Spark DF no pyspark

Eu tenho um SparkDataFrame no pyspark (2.1.0) e estou procurando obter apenas os nomes de colunas numéricas ou apenas colunas de seqüência de caracteres. Por exemplo, este é o esquema do meu DF: root |-- Gender: string (nullable = true) |-- ...