Resultados da pesquisa a pedido "pyspark"

1 a resposta

Spark: Como mapear Python com Scala ou Java User Defined Functions?

Digamos, por exemplo, que minha equipe escolheu o Python como a linguagem de referência para desenvolver com o Spark. Porém, mais tarde, por razões de desempenho, gostaríamos de desenvolver bibliotecas específicas do Scala ou Java, a fim de ...

1 a resposta

Remover partições vazias do Spark RDD

Estou buscando dados do HDFS e os armazenando em um Spark RDD. O Spark cria o número de partições com base no número de blocos HDFS. Isso leva a um grande número de partições vazias que também são processadas durante a tubulação. Para remover ...

1 a resposta

PySpark no Eclipse: usando PyDev

Estou executando um código pyspark local na linha de comando e funciona: /Users/edamame/local-lib/apache-spark/spark-1.5.1/bin/pyspark --jars myJar.jar --driver-class-path myJar.jar --executor-memory 2G --driver-memory 4G --executor-cores 3 ...

1 a resposta

Pyspark e PCA: Como posso extrair os autovetores deste PCA? Como posso calcular quanta variação eles estão explicando?

Estou reduzindo a dimensionalidade de umSpark DataFrame comPCA modelo com pyspark (usando ospark ml biblioteca) da seguinte forma: pca = PCA(k=3, inputCol="features", outputCol="pca_features") model = pca.fit(data)Ondedata é umSpark DataFrame ...

2 a resposta

O Apache Spark lança NullPointerException ao encontrar o recurso ausente

Eu tenho um problema bizarro com o PySpark ao indexar colunas de strings em recursos. Aqui está o meu arquivo tmp.csv: x0,x1,x2,x3 asd2s,1e1e,1.1,0 asd2s,1e1e,0.1,0 ,1e3e,1.2,0 bd34t,1e1e,5.1,1 asd2s,1e3e,0.2,0 bd34t,1e2e,4.3,1onde eu tenho um ...

6 a resposta

Como adiciono uma nova coluna a um Spark DataFrame (usando PySpark)?

Eu tenho um Spark DataFrame (usando o PySpark 1.5.1) e gostaria de adicionar uma nova coluna. Eu tentei o seguinte sem sucesso: type(randomed_hours) # => list # Create in Python and transform to RDD new_col = pd.DataFrame(randomed_hours, ...

1 a resposta

Filtragem Sparksql (selecionando com a cláusula where) com várias condições

Olá, tenho o seguinte problema: numeric.registerTempTable("numeric").Todos os valores que eu quero filtrar são cadeias de caracteres nulas literais e não valores N / A ou Nulos. Eu tentei estas três opções: numeric_filtered = ...

2 a resposta

União de faísca de vários RDDs

No meu código de porco, faço o seguinte: all_combined = Union relation1, relation2, relation3, relation4, relation5, relation 6.Eu quero fazer o mesmo com faísca. No entanto, infelizmente, vejo que tenho que continuar fazendo isso aos ...

5 a resposta

Como faço para testar os programas PySpark de unidade?

Minha abordagem atual de Java / Spark Unit Test funciona (detalhadaaqui [https://stackoverflow.com/a/32213314/2596363]) instanciando um SparkContext usando "local" e executando testes de unidade usando JUnit. O código deve ser organizado para ...

5 a resposta

Como importar o pyspark no anaconda

Estou tentando importar e usarpyspark com anaconda. Após instalar o faísca e definir o$SPARK_HOME variável tentei: $ pip install pysparkIsso não vai funcionar (é claro), porque eu descobri que preciso tel python para procurarpyspark ...