Resultados da pesquisa a pedido "apache-spark"

2 a resposta

DataFrames do Spark: registerTempTable vs not

Eu comecei ontem com o DataFrame ontem e estou gostando muito até agora. Eu não entendo uma coisa, porém ... (referindo-se ao exemplo em "Especificando programaticamente o esquema" ...

2 a resposta

Do DataFrame para o RDD [LabeledPoint]

Estou tentando implementar um classificador de documentos usando o Apache Spark MLlib e estou tendo alguns problemas para representar os dados. Meu código é o seguinte: import org.apache.spark.sql.{Row, SQLContext} ...

2 a resposta

Como configurar o Pyspark no Python 3 com spark-env.sh.template

Como eu tenho esse problema no meu notebook ipython3, acho que preciso alterar "spark-env.sh.template" de alguma forma. Exceção: Python no trabalhador tem uma versão 2.7 diferente da do driver 3.4, o PySpark não pode ser executado com diferentes ...

8 a resposta

Spark: tentar executar o shell de faísca, mas obter 'cmd' não é reconhecido como interno ou

Estou tentando instalar o Spark na área de trabalho do Windows. Tudo deve funcionar bem, mas recebo um erro "'cmd' não é reconhecido como um comando interno ou externo ..." Instalei o Scala, Java JDK e o Spark tgz descompactado em C: \, mas por ...

2 a resposta

localidade de dados spark + hadoop

Eu tenho um RDD de nomes de arquivos, então um RDD [String]. Eu entendo isso paralelizando uma lista de nomes de arquivos (de arquivos dentro de hdfs). Agora mapeio esse rdd e meu código abre um fluxo hadoop usando FileSystem.open (path). Então ...

5 a resposta

Escreva RDD como arquivo de texto usando o Apache Spark

Estou explorando o Spark para processamento em lote. Estou executando a centelha na minha máquina local usando o modo autônomo. Estou tentando converter o Spark RDD como arquivo único [saída final] usando o método saveTextFile (), mas não está ...

5 a resposta

Como definir o particionamento do DataFrame?

Comecei a usar Spark SQL e DataFrames no Spark 1.4.0. Estou querendo definir um particionador personalizado no DataFrames, no Scala, mas não vendo como fazer isso. Uma das tabelas de dados com as quais estou trabalhando contém uma lista ...

1 a resposta

Spark Streaming em um diretório S3

Portanto, tenho milhares de eventos sendo transmitidos pelo Amazon Kinesis para o SQS e depois despejados em um diretório S3. A cada 10 minutos, um novo arquivo de texto é criado para despejar os dados do Kinesis no S3. Gostaria de configurar o ...

3 a resposta

mesclar vários arquivos pequenos em poucos arquivos maiores no Spark

Eu estou usando a colméia através do Spark. Eu tenho uma inserção na consulta de tabela particionada no meu código spark. Os dados de entrada estão em 200 + gb. Quando o Spark está gravando em uma tabela particionada, está cuspindo arquivos muito ...

1 a resposta

adicionando filtro de idioma ao twitter popularhashtags - scala

Eu sou novo no Spark e Scala. Executei as tags hash populares do trabalho de streaming Spark no Twitter. Adicionei um filtro para algumas palavras e consegui filtrar os tweets: val filter = Array("spark", "Big Data") val stream ...