Resultados da pesquisa a pedido "apache-spark"

2 a resposta

ler arquivos recursivamente de subdiretórios com spark do s3 ou sistema de arquivos local

Estou tentando ler arquivos de um diretório que contém muitos subdiretórios. Os dados estão no S3 e estou tentando fazer isso: val rdd ...

2 a resposta

Por que o Scala 2.11 e o Spark com vieira levam a "java.lang.NoSuchMethodError: scala.reflect.api.JavaUniverse.runtimeMirror"?

Estou usando o Scala 2.11, Spark e Scallop (https://github.com/scallop/scallop [https://github.com/scallop/scallop]) Eu usei o sbt para criar um jar de gordura de aplicativo sem dependências fornecidas pelo Spark (isso ...

3 a resposta

Como compartilhar Spark RDD entre 2 contextos Spark?

Eu tenho um cluster RMI. Cada servidor RMI tem um contexto Spark. Existe alguma maneira de compartilhar um RDD entre diferentes contextos do Spark?

12 a resposta

Como pulo um cabeçalho dos arquivos CSV no Spark?

Suponha que eu forneça três caminhos de arquivos para um contexto do Spark para ler e cada arquivo tenha um esquema na primeira linha. Como podemos pular linhas de esquema dos cabeçalhos? val rdd=sc.textFile("file1,file2,file3")Agora, como ...

1 a resposta

Recursos / Documentação sobre como o processo de failover funciona para o Spark Driver (e seu YARN Container) no modo de cluster de fios

Estou tentando entender se o Spark Driver é um ponto único de falha ao implantar no modo de cluster para o Yarn. Então, eu gostaria de ter uma melhor compreensão das entranhas do processo de failover em relação ao contêiner YARN do driver Spark ...

2 a resposta

Redis no Spark: Tarefa não serializável

Usamos o Redis no Spark para armazenar em cache nossos pares de valores-chave. import com.redis.RedisClient val r = new RedisClient("192.168.1.101", 6379) val perhit = perhitFile.map(x => { val arr = x.split(" ") val readId = arr(0).toInt val ...

2 a resposta

O Spark não consegue separar method_descriptor

Recebo esta mensagem de erro estranha 15/01/26 13:05:12 INFO spark.SparkContext: Created broadcast 0 from wholeTextFiles at NativeMethodAccessorImpl.java:-2 Traceback (most recent call last): File "/home/user/inverted-index.py", line 78, in ...

2 a resposta

A CLI Spark-sql usa apenas 1 executor ao executar a consulta

Vou usar o spark-sql cli para substituir o shell do hive cli e execute o spark-sql cli seguindo o comando (Estamos usando no cluster do Hadoop de fios, o hive-site.xml já copiado para / conf) .> spark-sql Então o shell é aberto e funciona ok, E ...

6 a resposta

spark ssc.textFileStream não está transmitindo nenhum arquivo do diretório

Estou tentando executar o código abaixo usando eclipse (com maven conf) com 2 worker e cada um tem 2 núcleos ou também tentei com o envio de faísca. public class StreamingWorkCount implements Serializable { public static void main(String[] args) ...

3 a resposta

Como criar uma linha de uma lista ou matriz no Spark usando o Scala

Estou tentando criar uma linha (org.apache.spark.sql.catalyst.expressions.Row) com base na entrada do usuário. Não consigo criar uma linha aleatoriamente. Existe alguma funcionalidade para criar uma linha deList ouArray. Por exemplo, se eu ...