Resultados da pesquisa a pedido "apache-spark"
Apache Spark, adicione uma coluna calculada “CASE WHEN… ELSE…” a um DataFrame existente
Estou tentando adicionar uma coluna calculada "CASE WHEN ... ELSE ..." a um DataFrame existente, usando APIs Scala. Iniciando o dataframe: color Red Green BlueQuadro de dados desejado (sintaxe SQL: CASE WHEN color == Verde THEN 1 ELSE 0 END AS ...
Gravação do Spark rdd na lista global
Como escrever na lista global com rdd? Li = [] Fn(list): If list.value == 4: Li.append(1) rdd.mapValues(lambda x:fn(x)) Quando tento imprimir Li, o resultado é: [] O que estou tentando fazer é transformar outra lista global Li1 ...
O relatório de aplicativo para application_ (state: ACCEPTED) nunca termina para o Spark Submit (com Spark 1.2.0 no YARN)
Estou executando o aplicativo kinesis plus spark https://spark.apache.org/docs/1.2.0/streaming-kinesis-integration.html [https://spark.apache.org/docs/1.2.0/streaming-kinesis-integration.html] Estou correndo como abaixo comando na instância ...
Como filtrar o dstream usando a operação de transformação e o RDD externo?
eu useitransform método em um caso de uso semelhante ao descrito emOperação de transformaçãoSeção deTransformações no DStreams [https://spark.apache.org/docs/1.4.0/streaming-programming-guide.html#transformations-on-dstreams] : spamInfoRDD = ...
Por que o notebook Zeppelin não consegue se conectar ao S3
Eu instaleizepelim [https://github.com/apache/incubator-zeppelin], na minha máquina aws EC2 para conectar-se ao meu cluster de faíscas. Versão Spark: Autônomo: spark-1.2.1-bin-hadoop1.tgz Consigo conectar-me ao cluster spark, mas obtendo o ...
Execução simultânea de tarefas no Spark
Eu usei dados de entrada com o formato abaixo: 0 1 2 3 4 5 … 14 Input Location: hdfs://localhost:9000/Input/datasourceUsei o seguinte trecho de código para salvar o RDD como arquivo de texto usando vários threads: package ...
Problemas de carregamento do Spark on yarn jar
Estou tentando executar um simples programa java Map / Reduce usando spark over yarn (Cloudera Hadoop 5.2 no CentOS). Eu tentei isso 2 maneiras diferentes. A primeira maneira é a ...
Problema com o UDF em uma coluna de vetores no PySpark DataFrame
Estou tendo problemas para usar um UDF em uma coluna de vetores no PySpark, que pode ser ilustrada aqui: from pyspark import SparkContext from pyspark.sql import Row from pyspark.sql.types import DoubleType from pyspark.sql.functions import udf ...
NoClassDefFoundError com.apache.hadoop.fs.FSDataInputStream ao executar spark-shell
Fiz o download da versão prebuild do spark 1.4.0 sem hadoop (com o Haddop fornecido pelo usuário). Quando executei o comando spark-shell, recebi este erro: > Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/fs/ ...
Como escapar nomes de colunas com hífen no Spark SQL
Importei um arquivo json no Spark e o converti em uma tabela como myDF.registerTempTable("myDF")Desejo, então, executar consultas SQL nesta tabela resultante val newTable = sqlContext.sql("select column-1 from myDF")No entanto, isso me dá um ...