Resultados da pesquisa a pedido "apache-spark"

1 a resposta

Como comparar todos os elementos no RDD com todos os outros elementos no RDD?

Estou tentando realizar uma pesquisa de vizinhos K mais próxima usando o spark. Eu tenho um RDD [Seq [Double]] e estou planejando retornar um RDD [(Seq [Double], Seq [Seq [Double]])] com a linha real e uma lista de vizinhos val out = ...

6 a resposta

Como remover parênteses em torno de registros quando saveAsTextFile no RDD [(String, Int)]?

estou a usarsaveAsTextFile(path) para salvar a saída como arquivo de texto posteriormente para importar o resultado para o DB. A saída é mais ou menos assim: (value1, value2)Como remover os parênteses?

5 a resposta

Rastreamento da Web distribuído usando o Apache Spark - é possível?

Uma pergunta interessante foi feita quando participei de uma entrevista sobre mineração na web. A questão era: é possível rastrear os sites usando o Apache Spark? Imaginei que isso era possível, porque suporta a capacidade de ...

4 a resposta

Como alocar mais executores por trabalhador no modo de cluster autônomo?

Eu uso o Spark 1.3.0 em um cluster de 5 nós de trabalho com 36 núcleos e 58 GB de memória cada. Eu gostaria de configurar o cluster autônomo do Spark com muitos executores por trabalhador. Eu vi a fusãoSPARK-1706 ...

4 a resposta

java.sql.SQLException: nenhum driver adequado encontrado ao carregar o DataFrame no Spark SQL

Estou atingindo um problema muito estranho ao tentar carregar o JDBC DataFrame no Spark SQL. Eu tentei vários clusters Spark - YARN, cluster autônomo e modo pseudo-distribuído no meu laptop. É reproduzível no Spark 1.3.0 e 1.3.1. O problema ...

4 a resposta

Apache Spark: definir instâncias do executor não altera os executores

Eu tenho um aplicativo Apache Spark em execução em um cluster YARN (o spark possui 3 nós neste cluster) no modo de cluster. Quando o aplicativo está executando, a Spark-UI mostra que 2 executores (cada um em um nó diferente) e o driver estão em ...

3 a resposta

Pyspark py4j PickleException: “zero argumento esperado para a construção do ClassDict”

Esta pergunta é direcionada a pessoas familiarizadas com py4j - e pode ajudar a resolver um erro de decapagem. Estou tentando adicionar um método ao PythonMLLibAPI do pyspark que aceita um RDD de um nome de usuário, faz algum trabalho e retorna ...

8 a resposta

Obter CSV para o dataframe Spark

Estou usando python no Spark e gostaria de obter um csv em um dataframe. odocumentação [https://spark.apache.org/docs/latest/sql-programming-guide.html#data-sources] estranhamente para o Spark SQL não fornece explicações para o CSV como ...

3 a resposta

Como calcular o inverso de um RowMatrix no Apache Spark?

Eu tenho um X, matriz distribuída, no formato RowMatrix. Estou usando o Spark 1.3.0. Eu preciso ser capaz de calcular X inverso.

2 a resposta

Apache Hadoop Yarn - Subutilização de núcleos

Não importa o quanto eu mexa nas configurações doyarn-site.xml ou seja, usando todas as opções abaixo yarn.scheduler.minimum-allocation-vcores yarn.nodemanager.resource.memory-mb yarn.nodemanager.resource.cpu-vcores ...