Resultados da pesquisa a pedido "apache-spark"
Como comparar todos os elementos no RDD com todos os outros elementos no RDD?
Estou tentando realizar uma pesquisa de vizinhos K mais próxima usando o spark. Eu tenho um RDD [Seq [Double]] e estou planejando retornar um RDD [(Seq [Double], Seq [Seq [Double]])] com a linha real e uma lista de vizinhos val out = ...
Como remover parênteses em torno de registros quando saveAsTextFile no RDD [(String, Int)]?
estou a usarsaveAsTextFile(path) para salvar a saída como arquivo de texto posteriormente para importar o resultado para o DB. A saída é mais ou menos assim: (value1, value2)Como remover os parênteses?
Rastreamento da Web distribuído usando o Apache Spark - é possível?
Uma pergunta interessante foi feita quando participei de uma entrevista sobre mineração na web. A questão era: é possível rastrear os sites usando o Apache Spark? Imaginei que isso era possível, porque suporta a capacidade de ...
Como alocar mais executores por trabalhador no modo de cluster autônomo?
Eu uso o Spark 1.3.0 em um cluster de 5 nós de trabalho com 36 núcleos e 58 GB de memória cada. Eu gostaria de configurar o cluster autônomo do Spark com muitos executores por trabalhador. Eu vi a fusãoSPARK-1706 ...
java.sql.SQLException: nenhum driver adequado encontrado ao carregar o DataFrame no Spark SQL
Estou atingindo um problema muito estranho ao tentar carregar o JDBC DataFrame no Spark SQL. Eu tentei vários clusters Spark - YARN, cluster autônomo e modo pseudo-distribuído no meu laptop. É reproduzível no Spark 1.3.0 e 1.3.1. O problema ...
Apache Spark: definir instâncias do executor não altera os executores
Eu tenho um aplicativo Apache Spark em execução em um cluster YARN (o spark possui 3 nós neste cluster) no modo de cluster. Quando o aplicativo está executando, a Spark-UI mostra que 2 executores (cada um em um nó diferente) e o driver estão em ...
Pyspark py4j PickleException: “zero argumento esperado para a construção do ClassDict”
Esta pergunta é direcionada a pessoas familiarizadas com py4j - e pode ajudar a resolver um erro de decapagem. Estou tentando adicionar um método ao PythonMLLibAPI do pyspark que aceita um RDD de um nome de usuário, faz algum trabalho e retorna ...
Obter CSV para o dataframe Spark
Estou usando python no Spark e gostaria de obter um csv em um dataframe. odocumentação [https://spark.apache.org/docs/latest/sql-programming-guide.html#data-sources] estranhamente para o Spark SQL não fornece explicações para o CSV como ...
Como calcular o inverso de um RowMatrix no Apache Spark?
Eu tenho um X, matriz distribuída, no formato RowMatrix. Estou usando o Spark 1.3.0. Eu preciso ser capaz de calcular X inverso.
Apache Hadoop Yarn - Subutilização de núcleos
Não importa o quanto eu mexa nas configurações doyarn-site.xml ou seja, usando todas as opções abaixo yarn.scheduler.minimum-allocation-vcores yarn.nodemanager.resource.memory-mb yarn.nodemanager.resource.cpu-vcores ...