Resultados da pesquisa a pedido "apache-spark"

Estou executando o Spark no fio do Hadoop. Como essa conversão funciona? Um collect () ocorre antes da conversão? Também preciso instalar o Python e o R em todos os nós escravos para que a conversão funcione? Estou lutando para encontrar ...

apache-spark-sql scala pyspark python

3 a resposta

Como usar a fonte JDBC para gravar e ler dados no (Py) Spark?

O objetivo desta pergunta é documentar: etapas necessárias para ler e gravar dados usando conexões JDBC no PySpark possíveis problemas com fontes JDBC e soluções conhecidas Com pequenas alterações, esses métodos devem funcionar com outros ...

shuffle scala distinct rdd

1 a resposta

Existe uma maneira de reescrever o Spark RDD distinto para usar mapPartitions em vez de distinto?

Eu tenho um RDD muito grande para executar consistentemente uma declaração distinta sem erros espúrios (por exemplo, o estágio SparkException falhou 4 vezes, ExecutorLostFailure, sistema de arquivos HDFS fechado, número máximo de falhas do ...

kaggle hadoop scala

1 a resposta

Leia vários arquivos de um diretório usando o Spark

Estou tentando resolver issoproblema [https://www.kaggle.com/c/axa-driver-telematics-analysis]no kaggle usando spark: a hierarquia de entrada é assim: drivers/{driver_id}/trip#.csv e.g., drivers/1/1.csv drivers/1/2.csv drivers/2/1.csvEu quero ...

scala coalesce

1 a resposta

Faísca: coalescem muito lentamente até os dados de saída são muito pequenos

Eu tenho o seguinte código no Spark: myData.filter(t => t.getMyEnum() == null) .map(t => t.toString) .saveAsTextFile("myOutput")Existem mais de 2000 arquivos na pasta myOutput, mas apenas alguns t.getMyEnum () == null, portanto, existem apenas ...

pyspark python jupyter memory

7 a resposta

Spark 1.4 aumenta a memória maxResultSize

Estou usando o Spark 1.4 para minha pesquisa e lutando com as configurações de memória. Minha máquina possui 16 GB de memória, portanto não há problema, pois o tamanho do meu arquivo é de apenas 300 MB. Embora, quando eu tento converter Spark RDD ...

pyspark python

2 a resposta

remover duplicatas de um quadro de dados no pyspark

Estou mexendo com quadros de dados no pyspark 1.4 localmente e estou tendo problemas para que o método drop duplicates funcione. Continua retornando o erro "AttributeError: o objeto 'list' não tem atributo 'dropDuplicates'". Não sei ao certo por ...

java spark-cassandra-connector cassandra-2.0 out-of-memory

3 a resposta

Por que o Apache Spark está executando os filtros no cliente

Sendo novato no apache spark, enfrentando algum problema ao buscar dados do Cassandra no Spark. List<String> dates = Arrays.asList("2015-01-21","2015-01-22"); CassandraJavaRDD<A> aRDD = ...

twitter4j stream spark-streaming

2 a resposta

Interromper o contexto de streaming no Spark Streaming após um período de tempo

Ao criar um aplicativo que recebe DStreams do Twitter, a única maneira de interromper o contexto de Streaming é interrompendo a execução. Gostaria de saber se existe uma maneira de definir um horário e finalizar o soquete de streaming sem parar o ...

machine-learning apache-spark-mllib

2 a resposta

Regressão linear Spark MlLib (mínimos quadrados lineares) fornecendo resultados aleatórios

Sou novo no Spark e no Machine Learning em geral. Segui com sucesso alguns dos tutoriais do Mllib, não consigo fazer funcionar este: Encontrei o código de exemplo ...

Página 109 do 167

107 108109110 111

Resultados da pesquisa a pedido "apache-spark"

Requisitos para converter o quadro de dados Spark em quadro de dados Pandas / R

Como usar a fonte JDBC para gravar e ler dados no (Py) Spark?

Existe uma maneira de reescrever o Spark RDD distinto para usar mapPartitions em vez de distinto?

Tags populares

Leia vários arquivos de um diretório usando o Spark

Faísca: coalescem muito lentamente até os dados de saída são muito pequenos

Spark 1.4 aumenta a memória maxResultSize

remover duplicatas de um quadro de dados no pyspark

Por que o Apache Spark está executando os filtros no cliente

Interromper o contexto de streaming no Spark Streaming após um período de tempo

Regressão linear Spark MlLib (mínimos quadrados lineares) fornecendo resultados aleatórios

Você é muito ativo! É ótimo!

Resultados da pesquisa a pedido "apache-spark"

Tags populares