Resultados da pesquisa a pedido "apache-spark"
Como transformar fluxos estruturados com P, ySpark?
Parece que deveria ser óbvio, mas, ao revisar os documentos e os exemplos, não tenho certeza de encontrar uma maneira de obter um fluxo estruturado e transformar usando o PySpark. Por exemplo: from pyspark.sql import SparkSession spark = ( ...
Apache Spark: conexão JDBC não está funcionando
Também fiz essa pergunta anteriormente, mas não obtive resposta (Não é possível conectar-se ao postgres usando jdbc no shell ...
como lidar com o erro SPARK-5063 no spark
Recebo a mensagem de erro SPARK-5063 na linha de println val d.foreach{x=> for(i<-0 until x.length) println(m.lookup(x(i)))}d éRDD[Array[String]] m éRDD[(String, String)] . Existe alguma maneira de imprimir da maneira que eu quero? ou como posso ...
enviar script .py no Spark sem instalação do Hadoop
Eu tenho o seguinte script Python de contagem de palavras simples. from pyspark import SparkConf, SparkContext conf = SparkConf().setMaster("local").setAppName("My App") sc = SparkContext(conf = conf) from operator import add ...
Faísca classificar por chave e, em seguida, agrupar para ser ordenado iterável?
Eu tenho um par RDD(K, V) com a chave que contém umtime e umID. Gostaria de obter um par RDD do formulário(K, Iterable<V>) onde as chaves são agrupadas por id e o iterável é ordenado por hora. Atualmente estou usandosortByKey().groupByKey() e ...
Spark vs Apache Drill
Tenho alguma experiência com o Apache Spark e Spark-SQL. Recentemente eu encontrei o projeto Apache Drill. Você poderia me descrever quais são as vantagens / diferenças mais significativas entre elas? Eu já liAnálise rápida do Hadoop (Cloudera ...
como interpretar RDD.treeAggregate
Eu encontreiestá linha [https://github.com/apache/spark/blob/01f09b161217193b797c8c85969d17054c958615/mllib/src/main/scala/org/apache/spark/mllib/optimization/GradientDescent.scala#L236-L248] na fonte de código do Apache Spark val (gradientSum, ...
É possível criar RDDs aninhados no Apache Spark?
Eu estou tentando implementar o algoritmo vizinho K-mais próximo no Spark. Eu queria saber se é possível trabalhar com RDD aninhados. Isso tornará minha vida muito mais fácil. Considere o seguinte trecho de código. public static void main ...
Tarefa não serializável ao usar o objeto no REPL
Portanto, outra pergunta do SO me levou a tentar o seguinte: object Foo{ def f = 1 } sc.parallelize(List(1)).map(x=>{ val myF = Foo.f _ x + myF() }O que funciona, mas o seguinte não: object Foo{ def f = 1 def run(rdd: ...
Spark MLlib - trainImplicit warning
Eu continuo vendo esses avisos ao usartrainImplicit: WARN TaskSetManager: Stage 246 contains a task of very large size (208 KB). The maximum recommended task size is 100 KB.E então o tamanho da tarefa começa a aumentar. eu tentei ...