Resultados da pesquisa a pedido "pyspark"
Como listar RDDs definidos no shell Spark?
Nos shells "spark-shell" ou "pyspark", criei muitos RDDs, mas não consegui encontrar uma maneira de listar todos os RDDs disponíveis na minha sessão atual do Spark Shell?
Crie a maneira mais rápida de criar RDD de matrizes numpy
Meu aplicativo spark está usando RDDs de matrizes numpy. No momento, estou lendo meus dados da AWS S3 e eles são representados como um arquivo de texto simples, onde cada linha é um vetor e cada elemento é separado pelo espaço, por exemplo: 1 2 ...
SparkSQL: soma condicional usando duas colunas
Espero que você possa me ajudar com isto. Eu tenho um DF da seguinte maneira: val df = sc.parallelize(Seq( (1, "a", "2014-12-01", "2015-01-01", 100), (2, "a", "2014-12-01", "2015-01-02", 150), (3, "a", "2014-12-01", "2015-01-03", 120), (4, "b", ...
Erro numpy ao imprimir um RDD no Spark com Ipython
Estou tentando imprimir umRDD usandoSpark noIpython e quando faço isso, recebo este erro: --------------------------------------------------------------------------- Py4JJavaError Traceback (most recent call last) ...
Como o número de partições afeta `wholeTextFiles` e` textFiles`?
Na faísca, eu entendo como usarwholeTextFiles etextFiles, mas não tenho certeza de qual usar quando. Aqui está o que eu sei até agora: Ao lidar com arquivos que não são divididos por linha, deve-se usarwholeTextFiles, caso contrário, ...
Como carregar dependenices de jar no Notebook IPython
Esta página [https://medium.com/@chris_bour/6-differences-between-pandas-and-spark-dataframes-1380cec394d2#.85lrap56d] estava me inspirando a experimentar o spark-csv para ler arquivos .csv no PySpark. Encontrei algumas postagens ...
Contar o número de entradas não-NaN em cada coluna do dataframe Spark com o Pyspark
Eu tenho um conjunto de dados muito grande carregado no Hive. Consiste em cerca de 1,9 milhões de linhas e 1450 colunas. Preciso determinar a "cobertura" de cada uma das colunas, ou seja, a fração de linhas que possuem valores não NaN para cada ...
Como alterar os nomes das colunas do quadro de dados no pyspark?
Eu venho do fundo do pandas e estou acostumado a ler dados de arquivos CSV em um dataframe e depois simplesmente alterar os nomes das colunas para algo útil usando o comando simples: df.columns = new_column_name_listNo entanto, o mesmo não ...
Como salvar um spark dataframe como um arquivo de texto sem linhas no pyspark?
Eu tenho um dataframe "df" com as colunas ['name', 'age'] salvei o dataframe usandodf.rdd.saveAsTextFile("..") para salvá-lo como um rdd. Carreguei o arquivo salvo e, em seguida, collect () fornece o seguinte resultado. a = ...
PySpark 1.5 Como truncar carimbo de data e hora para o minuto mais próximo de segundos
Estou usando o PySpark. Eu tenho uma coluna ('dt') em um dataframe ('canon_evt') que é um carimbo de data / hora. Estou tentando remover segundos de um valor DateTime. É originalmente lido no parquet como uma String. Em seguida, tento convertê-lo ...