Resultados da pesquisa a pedido "apache-spark"
Como usar funções analíticas / de janela no Spark Java?
Estou tentando usar a função analítica / janela last_value no Spark Java. Consulta do Netezza:select sno, name, addr1, addr2, run_dt, last_value(addr1 ignore nulls) over (partition by sno, name, addr1, addr2, run_dt order by beg_ts , end_ts rows ...
PySpark no Eclipse: usando PyDev
Estou executando um código pyspark local na linha de comando e funciona: /Users/edamame/local-lib/apache-spark/spark-1.5.1/bin/pyspark --jars myJar.jar --driver-class-path myJar.jar --executor-memory 2G --driver-memory 4G --executor-cores 3 ...
Spark JoinWithCassandraTable na chave de partição TimeStamp STUCK
Estou tentando filtrar uma pequena parte de uma enorme tabela C * usando: val snapshotsFiltered = sc.parallelize(startDate to endDate).map(TableKey(_)).joinWithCassandraTable("listener","snapshots_tspark") println("Done Join") //******* //get ...
Spark 1.5.1, Probabilidade de floresta aleatória MLLib
Estou usando o Spark 1.5.1 com MLLib. Criei um modelo de floresta aleatória usando o MLLib, agora use o modelo para fazer previsões. Eu posso encontrar a categoria de previsão (0,0 ou 1,0) usando a função .predict. No entanto, não consigo ...
Lista de pastas do Spark Scala no diretório
Quero listar todas as pastas em um diretório hdfs usando o Scala / Spark. No Hadoop, posso fazer isso usando o comando:hadoop fs -ls hdfs://sandbox.hortonworks.com/demo/ Eu tentei com: val conf = new Configuration() val fs = ...
Substituir valores nulos no Spark DataFrame
Eu vi uma solução aqui, mas quando tentei, não funcionou para mim. Primeiro importo um arquivo cars.csv: val df = sqlContext.read .format("com.databricks.spark.csv") .option("header", "true") .load("/usr/local/spark/cars.csv")Que se parece com ...
Coluna Matriz de Acesso no Spark
Um Spark DataFrame contém uma coluna do tipo Array [Double]. Ele lança uma exceção ClassCastException quando tento recuperá-lo em uma função map (). O código Scala a seguir gera uma exceção. case class Dummy( x:Array[Double] ) val df ...
Fazendo com que Spark, Python e MongoDB trabalhem juntos
Estou tendo dificuldade em unir esses componentes corretamente. Tenho o Spark instalado e funcionando com êxito, posso executar trabalhos localmente, autônomo e também via YARN. Eu segui os passos recomendados (o melhor que ...
fazendo spark-shell com mlib, error: object jblas não é membro da organização do pacote
Na faísca, quando eu exercitoimport org.jblas.DoubleMatrix, lançará "error: object jblas não é membro da organização do pacote" no RHEL. Na verdade, pesquisei no Google sobre "jblas" e instalei o "gfortran" ...
Como posso atualizar uma variável de transmissão no spark streaming?
Acredito que tenho um caso de uso relativamente comum para o streaming de faíscas: Eu tenho um fluxo de objetos que gostaria de filtrar com base em alguns dados de referência Inicialmente, pensei que isso seria uma coisa muito simples de ...