Resultados da pesquisa a pedido "pyspark"

Nos shells "spark-shell" ou "pyspark", criei muitos RDDs, mas não consegui encontrar uma maneira de listar todos os RDDs disponíveis na minha sessão atual do Spark Shell?

python rdd apache-spark numpy

3 a resposta

Crie a maneira mais rápida de criar RDD de matrizes numpy

Meu aplicativo spark está usando RDDs de matrizes numpy. No momento, estou lendo meus dados da AWS S3 e eles são representados como um arquivo de texto simples, onde cada linha é um vetor e cada elemento é separado pelo espaço, por exemplo: 1 2 ...

apache-spark-sql aggregate-functions apache-spark sql

1 a resposta

SparkSQL: soma condicional usando duas colunas

Espero que você possa me ajudar com isto. Eu tenho um DF da seguinte maneira: val df = sc.parallelize(Seq( (1, "a", "2014-12-01", "2015-01-01", 100), (2, "a", "2014-12-01", "2015-01-02", 150), (3, "a", "2014-12-01", "2015-01-03", 120), (4, "b", ...

numpy apache-spark ipython

0 a resposta

Erro numpy ao imprimir um RDD no Spark com Ipython

Estou tentando imprimir umRDD usandoSpark noIpython e quando faço isso, recebo este erro: --------------------------------------------------------------------------- Py4JJavaError Traceback (most recent call last) ...

apache-spark python

1 a resposta

Como o número de partições afeta `wholeTextFiles` e` textFiles`?

Na faísca, eu entendo como usarwholeTextFiles etextFiles, mas não tenho certeza de qual usar quando. Aqui está o que eu sei até agora: Ao lidar com arquivos que não são divididos por linha, deve-se usarwholeTextFiles, caso contrário, ...

jupyter-notebook apache-spark csv

2 a resposta

Como carregar dependenices de jar no Notebook IPython

Esta página [https://medium.com/@chris_bour/6-differences-between-pandas-and-spark-dataframes-1380cec394d2#.85lrap56d] estava me inspirando a experimentar o spark-csv para ler arquivos .csv no PySpark. Encontrei algumas postagens ...

python apache-spark-sql dataframe apache-spark

2 a resposta

Contar o número de entradas não-NaN em cada coluna do dataframe Spark com o Pyspark

Eu tenho um conjunto de dados muito grande carregado no Hive. Consiste em cerca de 1,9 milhões de linhas e 1450 colunas. Preciso determinar a "cobertura" de cada uma das colunas, ou seja, a fração de linhas que possuem valores não NaN para cada ...

python pyspark-sql apache-spark

10 a resposta

Como alterar os nomes das colunas do quadro de dados no pyspark?

Eu venho do fundo do pandas e estou acostumado a ler dados de arquivos CSV em um dataframe e depois simplesmente alterar os nomes das colunas para algo útil usando o comando simples: df.columns = new_column_name_listNo entanto, o mesmo não ...

apache-spark python

1 a resposta

Como salvar um spark dataframe como um arquivo de texto sem linhas no pyspark?

Eu tenho um dataframe "df" com as colunas ['name', 'age'] salvei o dataframe usandodf.rdd.saveAsTextFile("..") para salvá-lo como um rdd. Carreguei o arquivo salvo e, em seguida, collect () fornece o seguinte resultado. a = ...

python apache-spark datetime apache-spark-sql

2 a resposta

PySpark 1.5 Como truncar carimbo de data e hora para o minuto mais próximo de segundos

Estou usando o PySpark. Eu tenho uma coluna ('dt') em um dataframe ('canon_evt') que é um carimbo de data / hora. Estou tentando remover segundos de um valor DateTime. É originalmente lido no parquet como uma String. Em seguida, tento convertê-lo ...

Página 36 do 46

34 353637 38

Resultados da pesquisa a pedido "pyspark"

Como listar RDDs definidos no shell Spark?

Crie a maneira mais rápida de criar RDD de matrizes numpy

SparkSQL: soma condicional usando duas colunas

Tags populares

Erro numpy ao imprimir um RDD no Spark com Ipython

Como o número de partições afeta `wholeTextFiles` e` textFiles`?

Como carregar dependenices de jar no Notebook IPython

Contar o número de entradas não-NaN em cada coluna do dataframe Spark com o Pyspark

Como alterar os nomes das colunas do quadro de dados no pyspark?

Como salvar um spark dataframe como um arquivo de texto sem linhas no pyspark?

PySpark 1.5 Como truncar carimbo de data e hora para o minuto mais próximo de segundos

Você é muito ativo! É ótimo!

Resultados da pesquisa a pedido "pyspark"

Tags populares