Resultados da pesquisa a pedido "apache-spark"
DataFrames do Spark: registerTempTable vs not
Eu comecei ontem com o DataFrame ontem e estou gostando muito até agora. Eu não entendo uma coisa, porém ... (referindo-se ao exemplo em "Especificando programaticamente o esquema" ...
Do DataFrame para o RDD [LabeledPoint]
Estou tentando implementar um classificador de documentos usando o Apache Spark MLlib e estou tendo alguns problemas para representar os dados. Meu código é o seguinte: import org.apache.spark.sql.{Row, SQLContext} ...
Como configurar o Pyspark no Python 3 com spark-env.sh.template
Como eu tenho esse problema no meu notebook ipython3, acho que preciso alterar "spark-env.sh.template" de alguma forma. Exceção: Python no trabalhador tem uma versão 2.7 diferente da do driver 3.4, o PySpark não pode ser executado com diferentes ...
Spark: tentar executar o shell de faísca, mas obter 'cmd' não é reconhecido como interno ou
Estou tentando instalar o Spark na área de trabalho do Windows. Tudo deve funcionar bem, mas recebo um erro "'cmd' não é reconhecido como um comando interno ou externo ..." Instalei o Scala, Java JDK e o Spark tgz descompactado em C: \, mas por ...
localidade de dados spark + hadoop
Eu tenho um RDD de nomes de arquivos, então um RDD [String]. Eu entendo isso paralelizando uma lista de nomes de arquivos (de arquivos dentro de hdfs). Agora mapeio esse rdd e meu código abre um fluxo hadoop usando FileSystem.open (path). Então ...
Escreva RDD como arquivo de texto usando o Apache Spark
Estou explorando o Spark para processamento em lote. Estou executando a centelha na minha máquina local usando o modo autônomo. Estou tentando converter o Spark RDD como arquivo único [saída final] usando o método saveTextFile (), mas não está ...
Como definir o particionamento do DataFrame?
Comecei a usar Spark SQL e DataFrames no Spark 1.4.0. Estou querendo definir um particionador personalizado no DataFrames, no Scala, mas não vendo como fazer isso. Uma das tabelas de dados com as quais estou trabalhando contém uma lista ...
Spark Streaming em um diretório S3
Portanto, tenho milhares de eventos sendo transmitidos pelo Amazon Kinesis para o SQS e depois despejados em um diretório S3. A cada 10 minutos, um novo arquivo de texto é criado para despejar os dados do Kinesis no S3. Gostaria de configurar o ...
mesclar vários arquivos pequenos em poucos arquivos maiores no Spark
Eu estou usando a colméia através do Spark. Eu tenho uma inserção na consulta de tabela particionada no meu código spark. Os dados de entrada estão em 200 + gb. Quando o Spark está gravando em uma tabela particionada, está cuspindo arquivos muito ...
adicionando filtro de idioma ao twitter popularhashtags - scala
Eu sou novo no Spark e Scala. Executei as tags hash populares do trabalho de streaming Spark no Twitter. Adicionei um filtro para algumas palavras e consegui filtrar os tweets: val filter = Array("spark", "Big Data") val stream ...