Resultados da pesquisa a pedido "pyspark"

Esta pergunta já tem uma resposta aqui: Carregar arquivo CSV com Spark [/questions/28782940/load-csv-file-with-spark] 11 respostasrdd1=sc.textFile('/user/training/checkouts').map(lambda line:line.split(',')).map(lambda ...

apache-spark

0 a resposta

Py4JJavaError no spark

Eu tenho abaixo código através do qual eu estou tentando fazer regex encontrar e substituir no spark usando pyspark. Arquivokey tem 182417 linhas e arquivosjob possui 234085 linhas. Estou executando o pyspark na minha máquina virtual. df = ...

unit-testing python

3 a resposta

Código pyspark de teste de unidade usando python

Eu tenho script empyspark como abaixo. Eu quero testar uma unidadefunction neste script. def rename_chars(column_name): chars = ((' ', '_&'), ('.', '_$')) new_cols = reduce(lambda a, kv: a.replace(*kv), chars, column_name) return new_cols ...

apache-spark-sql

2 a resposta

No pyspark, como você adiciona / concata uma string a uma coluna?

Eu gostaria de adicionar uma string a uma coluna existente. Por exemplo,df['col1'] tem valores como'1', '2', '3' etc e eu gostaria de concat string'000' na esquerda decol1 para que eu possa obter uma coluna (nova ou substituir a antiga não ...

scala aws-glue sbt

3 a resposta

Como configurar um ambiente de desenvolvimento local para que o Scala Spark ETL seja executado no AWS Glue?

Eu gostaria de poder escreverScala no meu IDE local e implante-o no AWS Glue como parte de um processo de construção. Mas estou tendo problemas para encontrar as bibliotecas necessárias para criar oGlueApp esqueleto gerado ...

mapr hive apache-spark

1 a resposta

Esquema da tabela Spark e Hive fora de sincronia após substituição externa

Estou tendo problemas com o esquema das tabelas do Hive que estão fora de sincronia entre o Spark e o Hive em um cluster Mapr com o Spark 2.1.0 e o Hive 2.1.1. Preciso tentar resolver esse problema especificamente para tabelas gerenciadas, mas o ...

python apache-spark-ml apache-spark

1 a resposta

Árvores impulsionadas por gradiente Spark ML que não usam todos os nós

Estou usando oSpark ML GBTClassifier [https://spark.apache.org/docs/2.2.0/api/python/pyspark.ml.html#pyspark.ml.classification.GBTClassifier] nopyspark para treinar um modelo de classificação binária em um dataframe com ~ 400k linhas e ~ 9k ...

spark-dataframe

2 a resposta

Transformando uma coluna e atualize o DataFrame

Então, o que estou fazendo abaixo é soltar uma colunaA a partir de umDataFrame porque eu quero aplicar uma transformação (aqui eu apenasjson.loads uma sequência JSON) e substitua a coluna antiga pela transformada. Após a transformação, juntei os ...

python apache-spark

1 a resposta