Resultados da pesquisa a pedido "apache-spark"

3 a resposta

Entendendo o cache do Spark

Estou tentando entender como o cache do Spark funciona. Aqui está meu entendimento ingênuo, por favor, deixe-me saber se estou faltando alguma coisa: val rdd1 = sc.textFile("some data") rdd1.cache() //marks rdd1 as cached val rdd2 = ...

4 a resposta

Calculando as médias para cada KEY em um RDD Pairwise (K, V) no Spark com Python

Eu quero compartilhar esta solução específica do Apache Spark com Python, porque a documentação para ela é bastante pobre. Eu queria calcular o valor médio dos pares K / V (armazenados em um Pairwise RDD), por KEY. Aqui está a aparência dos ...

5 a resposta

java.lang.NoSuchMethodError Jackson databind and Spark

Estou tentando executar o envio de spark com o Spark 1.1.0 e o Jackson 2.4.4. Eu tenho código scala que usa Jackson para desserializar JSON em classes de caso. Isso funciona bem por si só, mas quando o uso com o spark, recebo o ...

3 a resposta

Como resolver o SPARK-5063 em funções de mapa aninhado

As transformações e ações de RDD podem ser invocadas apenas pelo driver, não dentro de outras transformações; por exemplo, rdd1.map (x => rdd2.values.count () * x) é inválido porque a transformação de valores e a ação de contagem não podem ser ...

1 a resposta

No Apache Spark, por que o RDD.union não preserva o particionador?

Como todos sabem, os particionadores do Spark têm um enorme impacto no desempenho de qualquer operação "ampla", portanto, geralmente é personalizado nas operações. Eu estava experimentando o seguinte código: val rdd1 = sc.parallelize(1 to ...

2 a resposta

como lidar com a exceção na função spark map ()?

Quero ignorar a exceção na função map (), por exemplo: rdd.map(_.toInt)onde rdd é umRDD[String]. mas se encontrar uma sequência que não seja numérica, falhará. Qual é a maneira mais fácil de ignorar qualquer exceção e ignorar essa linha? (Não ...

4 a resposta

UnsatisfiedLinkError: nenhum snappyjava no java.library.path ao executar o teste de Unidade Spark MLLib no Intellij

A seguinte exceção está ocorrendo ao executar um teste de unidade spark que requer compactação instantânea: java.lang.reflect.InvocationTargetException at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) ...

2 a resposta

Usando o envio de spark, qual é o comportamento da opção --total-executor-cores?

Estou executando um cluster de faísca em código C ++ envolto em python. Atualmente, estou testando diferentes configurações de opções de multiencadeamento (no nível Python ou no Spark). Estou usando o spark com binários independentes, em um ...

1 a resposta

Compartilhamento de dados de streaming Spark entre lotes

O streaming Spark processa os dados em micro lotes. Cada dado de intervalo é processado em paralelo usando RDDs sem compartilhamento de dados entre cada intervalo. Mas meu caso de uso precisa compartilhar os dados entre intervalos. Considere ...

1 a resposta

agregando com uma condição no groupby spark dataframe

Eu tenho um quadro de dados id lat long lag_lat lag_long detector lag_interval gpsdt lead_gpsdt 1 12 13 12 13 1 [1.5,3.5] 4 4.5 1 12 13 12 13 1 null 4.5 5 1 12 13 12 13 1 null 5 5.5 1 12 13 12 13 1 null 5.5 6 1 13 14 12 13 2 null 6 6.5 1 13 14 ...