Resultados da pesquisa a pedido "apache-spark"
Entendendo o cache do Spark
Estou tentando entender como o cache do Spark funciona. Aqui está meu entendimento ingênuo, por favor, deixe-me saber se estou faltando alguma coisa: val rdd1 = sc.textFile("some data") rdd1.cache() //marks rdd1 as cached val rdd2 = ...
Calculando as médias para cada KEY em um RDD Pairwise (K, V) no Spark com Python
Eu quero compartilhar esta solução específica do Apache Spark com Python, porque a documentação para ela é bastante pobre. Eu queria calcular o valor médio dos pares K / V (armazenados em um Pairwise RDD), por KEY. Aqui está a aparência dos ...
java.lang.NoSuchMethodError Jackson databind and Spark
Estou tentando executar o envio de spark com o Spark 1.1.0 e o Jackson 2.4.4. Eu tenho código scala que usa Jackson para desserializar JSON em classes de caso. Isso funciona bem por si só, mas quando o uso com o spark, recebo o ...
Como resolver o SPARK-5063 em funções de mapa aninhado
As transformações e ações de RDD podem ser invocadas apenas pelo driver, não dentro de outras transformações; por exemplo, rdd1.map (x => rdd2.values.count () * x) é inválido porque a transformação de valores e a ação de contagem não podem ser ...
No Apache Spark, por que o RDD.union não preserva o particionador?
Como todos sabem, os particionadores do Spark têm um enorme impacto no desempenho de qualquer operação "ampla", portanto, geralmente é personalizado nas operações. Eu estava experimentando o seguinte código: val rdd1 = sc.parallelize(1 to ...
como lidar com a exceção na função spark map ()?
Quero ignorar a exceção na função map (), por exemplo: rdd.map(_.toInt)onde rdd é umRDD[String]. mas se encontrar uma sequência que não seja numérica, falhará. Qual é a maneira mais fácil de ignorar qualquer exceção e ignorar essa linha? (Não ...
UnsatisfiedLinkError: nenhum snappyjava no java.library.path ao executar o teste de Unidade Spark MLLib no Intellij
A seguinte exceção está ocorrendo ao executar um teste de unidade spark que requer compactação instantânea: java.lang.reflect.InvocationTargetException at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) ...
Usando o envio de spark, qual é o comportamento da opção --total-executor-cores?
Estou executando um cluster de faísca em código C ++ envolto em python. Atualmente, estou testando diferentes configurações de opções de multiencadeamento (no nível Python ou no Spark). Estou usando o spark com binários independentes, em um ...
Compartilhamento de dados de streaming Spark entre lotes
O streaming Spark processa os dados em micro lotes. Cada dado de intervalo é processado em paralelo usando RDDs sem compartilhamento de dados entre cada intervalo. Mas meu caso de uso precisa compartilhar os dados entre intervalos. Considere ...
agregando com uma condição no groupby spark dataframe
Eu tenho um quadro de dados id lat long lag_lat lag_long detector lag_interval gpsdt lead_gpsdt 1 12 13 12 13 1 [1.5,3.5] 4 4.5 1 12 13 12 13 1 null 4.5 5 1 12 13 12 13 1 null 5 5.5 1 12 13 12 13 1 null 5.5 6 1 13 14 12 13 2 null 6 6.5 1 13 14 ...