Resultados da pesquisa a pedido "apache-spark"
ler arquivos recursivamente de subdiretórios com spark do s3 ou sistema de arquivos local
Estou tentando ler arquivos de um diretório que contém muitos subdiretórios. Os dados estão no S3 e estou tentando fazer isso: val rdd ...
Por que o Scala 2.11 e o Spark com vieira levam a "java.lang.NoSuchMethodError: scala.reflect.api.JavaUniverse.runtimeMirror"?
Estou usando o Scala 2.11, Spark e Scallop (https://github.com/scallop/scallop [https://github.com/scallop/scallop]) Eu usei o sbt para criar um jar de gordura de aplicativo sem dependências fornecidas pelo Spark (isso ...
Como compartilhar Spark RDD entre 2 contextos Spark?
Eu tenho um cluster RMI. Cada servidor RMI tem um contexto Spark. Existe alguma maneira de compartilhar um RDD entre diferentes contextos do Spark?
Como pulo um cabeçalho dos arquivos CSV no Spark?
Suponha que eu forneça três caminhos de arquivos para um contexto do Spark para ler e cada arquivo tenha um esquema na primeira linha. Como podemos pular linhas de esquema dos cabeçalhos? val rdd=sc.textFile("file1,file2,file3")Agora, como ...
Recursos / Documentação sobre como o processo de failover funciona para o Spark Driver (e seu YARN Container) no modo de cluster de fios
Estou tentando entender se o Spark Driver é um ponto único de falha ao implantar no modo de cluster para o Yarn. Então, eu gostaria de ter uma melhor compreensão das entranhas do processo de failover em relação ao contêiner YARN do driver Spark ...
Redis no Spark: Tarefa não serializável
Usamos o Redis no Spark para armazenar em cache nossos pares de valores-chave. import com.redis.RedisClient val r = new RedisClient("192.168.1.101", 6379) val perhit = perhitFile.map(x => { val arr = x.split(" ") val readId = arr(0).toInt val ...
O Spark não consegue separar method_descriptor
Recebo esta mensagem de erro estranha 15/01/26 13:05:12 INFO spark.SparkContext: Created broadcast 0 from wholeTextFiles at NativeMethodAccessorImpl.java:-2 Traceback (most recent call last): File "/home/user/inverted-index.py", line 78, in ...
A CLI Spark-sql usa apenas 1 executor ao executar a consulta
Vou usar o spark-sql cli para substituir o shell do hive cli e execute o spark-sql cli seguindo o comando (Estamos usando no cluster do Hadoop de fios, o hive-site.xml já copiado para / conf) .> spark-sql Então o shell é aberto e funciona ok, E ...
spark ssc.textFileStream não está transmitindo nenhum arquivo do diretório
Estou tentando executar o código abaixo usando eclipse (com maven conf) com 2 worker e cada um tem 2 núcleos ou também tentei com o envio de faísca. public class StreamingWorkCount implements Serializable { public static void main(String[] args) ...
Como criar uma linha de uma lista ou matriz no Spark usando o Scala
Estou tentando criar uma linha (org.apache.spark.sql.catalyst.expressions.Row) com base na entrada do usuário. Não consigo criar uma linha aleatoriamente. Existe alguma funcionalidade para criar uma linha deList ouArray. Por exemplo, se eu ...