Resultados da pesquisa a pedido "pyspark"

1 a resposta

Spark mllib prevendo número estranho ou NaN

Eu sou novo no Apache Spark e estou tentando usar a biblioteca de aprendizado de máquina para prever alguns dados. Meu conjunto de dados agora é de apenas cerca de 350 pontos. Aqui estão 7 desses pontos: "365","4",41401.387,5330569 ...

2 a resposta

Consulta do Spark em execução muito lenta

Eu tenho um cluster na AWS com 2 escravos e 1 mestre. Todas as instâncias são do tipo m1.large. Estou executando o spark versão 1.4. Estou comparando o desempenho da faísca em dados de 4 milhões provenientes do desvio para o vermelho. Disparei ...

1 a resposta

Como passar arquivos para o nó principal?

Eu já escrevi código em python para implementar a classificação binária e quero paralelizar esse processo de classificação com base em diferentes arquivos de dados no meu computador local usando o Apache-Spark. Eu já fiz as seguintes etapas: Eu ...

1 a resposta

Como imprimir o caminho / regras de decisão usados para prever a amostra de uma linha específica no PySpark?

Como imprimir o caminho de decisão de uma amostra específica em um Spark DataFrame? Spark Version: '2.3.1'O código abaixo imprime o caminho de decisão de todo o modelo. Como fazê-lo imprimir um caminho de decisão de uma amostra específica? Por ...

2 a resposta

Geração de números aleatórios no PySpark

Vamos começar com uma função simples que sempre retorna um número inteiro aleatório: import numpy as np def f(x): return np.random.randint(1000)e um RDD preenchido com zeros e mapeado usandof: rdd = sc.parallelize([0] * 10).map(f)Como o RDD ...

3 a resposta

Como gravar o RDD resultante em um arquivo CSV no Spark python

Eu tenho um RDD resultantelabelsAndPredictions = testData.map(lambda lp: lp.label).zip(predictions). Isso tem saída neste formato: [(0.0, 0.08482142857142858), (0.0, 0.11442786069651742),.....]O que eu quero é criar um arquivo CSV com uma coluna ...

16 a resposta

Pyspark: Exception: processo de gateway Java encerrado antes de enviar ao driver seu número de porta

Estou tentando rodar o pyspark no meu macbook air. Quando tento iniciar, recebo o erro: Exception: Java gateway process exited before sending the driver its port number quando sc = SparkContext () estiver sendo chamado na inicialização. Eu ...

1 a resposta

Problema ao criar uma lista global a partir do mapa usando o PySpark

Eu tenho esse código em que estou lendo um arquivoipython usandopyspark. O que estou tentando fazer é adicionar um pedaço a ele, que forma uma lista com base em uma coluna específica lida no arquivo, mas quando tento executá-lo, a lista fica ...

1 a resposta

PySpark, importando esquema através do arquivo JSON

tbschema.json se parece com isso: [{"TICKET":"integer","TRANFERRED":"string","ACCOUNT":"STRING"}]Carrego-o usando o seguinte código >>> df2 = sqlContext.jsonFile("tbschema.json") >>> ...

1 a resposta

Databricks (Spark): dependências .egg não instaladas automaticamente?

Eu tenho um criado localmente.egg pacote que dependeboto==2.38.0. Eu usei setuptools para criar a distribuição de build. Tudo funciona no meu próprio ambiente local, pois ele buscaboto corretamente dePiP. No entantodatabricks ele não busca ...