Resultados da pesquisa a pedido "apache-spark"

1 a resposta

Como transformar fluxos estruturados com P, ySpark?

Parece que deveria ser óbvio, mas, ao revisar os documentos e os exemplos, não tenho certeza de encontrar uma maneira de obter um fluxo estruturado e transformar usando o PySpark. Por exemplo: from pyspark.sql import SparkSession spark = ( ...

6 a resposta

Apache Spark: conexão JDBC não está funcionando

Também fiz essa pergunta anteriormente, mas não obtive resposta (Não é possível conectar-se ao postgres usando jdbc no shell ...

2 a resposta

como lidar com o erro SPARK-5063 no spark

Recebo a mensagem de erro SPARK-5063 na linha de println val d.foreach{x=> for(i<-0 until x.length) println(m.lookup(x(i)))}d éRDD[Array[String]] m éRDD[(String, String)] . Existe alguma maneira de imprimir da maneira que eu quero? ou como posso ...

1 a resposta

enviar script .py no Spark sem instalação do Hadoop

Eu tenho o seguinte script Python de contagem de palavras simples. from pyspark import SparkConf, SparkContext conf = SparkConf().setMaster("local").setAppName("My App") sc = SparkContext(conf = conf) from operator import add ...

2 a resposta

Faísca classificar por chave e, em seguida, agrupar para ser ordenado iterável?

Eu tenho um par RDD(K, V) com a chave que contém umtime e umID. Gostaria de obter um par RDD do formulário(K, Iterable<V>) onde as chaves são agrupadas por id e o iterável é ordenado por hora. Atualmente estou usandosortByKey().groupByKey() e ...

2 a resposta

Spark vs Apache Drill

Tenho alguma experiência com o Apache Spark e Spark-SQL. Recentemente eu encontrei o projeto Apache Drill. Você poderia me descrever quais são as vantagens / diferenças mais significativas entre elas? Eu já liAnálise rápida do Hadoop (Cloudera ...

1 a resposta

como interpretar RDD.treeAggregate

Eu encontreiestá linha [https://github.com/apache/spark/blob/01f09b161217193b797c8c85969d17054c958615/mllib/src/main/scala/org/apache/spark/mllib/optimization/GradientDescent.scala#L236-L248] na fonte de código do Apache Spark val (gradientSum, ...

2 a resposta

É possível criar RDDs aninhados no Apache Spark?

Eu estou tentando implementar o algoritmo vizinho K-mais próximo no Spark. Eu queria saber se é possível trabalhar com RDD aninhados. Isso tornará minha vida muito mais fácil. Considere o seguinte trecho de código. public static void main ...

0 a resposta

Tarefa não serializável ao usar o objeto no REPL

Portanto, outra pergunta do SO me levou a tentar o seguinte: object Foo{ def f = 1 } sc.parallelize(List(1)).map(x=>{ val myF = Foo.f _ x + myF() }O que funciona, mas o seguinte não: object Foo{ def f = 1 def run(rdd: ...

1 a resposta

Spark MLlib - trainImplicit warning

Eu continuo vendo esses avisos ao usartrainImplicit: WARN TaskSetManager: Stage 246 contains a task of very large size (208 KB). The maximum recommended task size is 100 KB.E então o tamanho da tarefa começa a aumentar. eu tentei ...