Resultados da pesquisa a pedido "apache-spark"
Conecte-se aos dados S3 do PySpark
Estou tentando ler um arquivo JSON, do Amazon s3, para criar um contexto de faísca e usá-lo para processar os dados. O Spark está basicamente em um contêiner de encaixe. Portanto, colocar arquivos no caminho do docker também é PITA. Por isso, ...
Como ler e escrever várias tabelas em paralelo no Spark?
No meu aplicativo Spark, estou tentando ler várias tabelas do RDBMS, fazendo algum processamento de dados e depois gravando várias tabelas em outro RDBMS da seguinte maneira (no Scala): val reading1 = sqlContext.load("jdbc", Map("url" -> myurl1, ...
Spark: Diferença entre gravação aleatória, derramamento aleatório (memória), derramamento aleatório (disco)?
Eu tenho o seguinte trabalho de faísca, tentando manter tudo na memória: val myOutRDD = myInRDD.flatMap { fp => val tuple2List: ListBuffer[(String, myClass)] = ListBuffer() : tuple2List }.persist(StorageLevel.MEMORY_ONLY).reduceByKey { (p1, p2) ...
Como melhorar o desempenho de tarefas lentas do Spark usando a conexão DataFrame e JDBC?
Estou tentando acessar uma tabela Teradata de tamanho médio (~ 100 milhões de linhas) via JDBC no modo autônomo em um único nó (local [*]). Estou usando o Spark 1.4.1. e é configurado em uma máquina muito poderosa (2 cpu, 24 núcleos, 126G ...
Como configurar a planilha Intellij 14 Scala para executar o Spark
Estou tentando criar um SparkContext em uma planilha Intellij 14 Scala. aqui estão minhas dependências name := "LearnSpark" version := "1.0" scalaVersion := "2.11.7" // for working with Spark API libraryDependencies += "org.apache.spark" %% ...
Como usar o classificador spark Naive Bayes para classificação de texto com IDF?
Quero converter documentos de texto em vetores de recurso usando tf-idf e treinar um algoritmo ingênuo de bayes para classificá-los. Posso carregar facilmente meus arquivos de texto sem os rótulos e usar HashingTF () para convertê-lo em um vetor ...
Solte o quadro de dados spark do cache
Estou usando o Spark 1.3.0 com python api. Ao transformar grandes quadros de dados, eu armazeno em cache muitos DFs para uma execução mais rápida; df1.cache() df2.cache()Depois que o uso de determinado dataframe termina e não é mais necessário, ...
IntelliJ Idea 14: não é possível resolver a faísca do símbolo
Fiz uma dependência do Spark que funcionou no meu primeiro projeto. Mas quando tento criar um novo projeto com o Spark, meu SBT não importa os frascos externos do org.apache.spark. Portanto, o IntelliJ Idea dá o erro de que "não pode resolver o ...
Amostragem estratificada no Spark
Eu tenho um conjunto de dados que contém dados de usuário e compra. Aqui está um exemplo, onde o primeiro elemento é userId, o segundo é productId e o terceiro indica booleano. (2147481832,23355149,1) (2147481832,973010692,1) ...
Como lidar com recursos categóricos com spark-ml?
Como manejo dados categóricos com spark-ml e não spark-mllib ? Embora a documentação não seja muito clara, parece que os classificadores, por exemplo,RandomForestClassifier, LogisticRegression, tenha umfeaturesCol argumento, que especifica o ...