Resultados da pesquisa a pedido "apache-spark"
O Apache Spark não exclui diretórios temporários
Após a conclusão de um programa spark, restam 3 diretórios temporários no diretório temporário. Os nomes dos diretórios são os seguintes: spark-2e389487-40cc-4a82-a5c7-353c0feefbb7 Os diretórios estão vazios. E quando o programa Spark é ...
A inicialização do modo Apache Spark YARN leva muito tempo (mais de 10 segundos)
Estou executando um aplicativo spark no modo cliente YARN ou cluster YARN. Mas parece levar muito tempo para iniciar. Demora mais de 10 segundos para inicializar o contexto de faísca. Isso é normal? Ou pode ser otimizado? O ambiente é o ...
Como imprimir elementos de partição RDD específica no Spark?
Como imprimir os elementos de uma partição específica, digamos a 5ª, sozinho? val distData = sc.parallelize(1 to 50, 10)
Como transformar uma variável categórica no Spark em um conjunto de colunas codificadas como {0,1}?
Estou tentando executar uma regressão logística (LogisticRegressionWithLBFGS) com Spark MLlib (com Scala) em um conjunto de dados que contém variáveis categóricas. Descobri que o Spark não foi capaz de trabalhar com esse tipo de variável. Em R, ...
Cassandra storage internal
Estou tentando entender o que exatamente acontece internamente no nível do mecanismo de armazenamento quando uma linha (colunas) é inserida em uma tabela de estilo CQL. CREATE TABLE log_date ( userid bigint, time timeuuid, category text, ...
Criar RDD do Spark no arquivo s3
Estou tentando criar o JAVARDD no arquivo s3, mas não consigo criar o rdd. Alguém pode me ajudar a resolver esse problema. Código: SparkConf conf = new SparkConf().setAppName(appName).setMaster("local"); JavaSparkContext javaSparkContext = new ...
Como nivelar os dados de diferentes tipos de dados usando o pacote Sparklyr?
Introdução O código R é gravado usando o pacote Sparklyr para criar o esquema do banco de dados.[Código e banco de dados reproduzíveis são fornecidos] Resultado Existente root |-- contributors : string |-- created_at : string |-- entities ...
redByKey: Como funciona internamente?
Eu sou novo no Spark e Scala. Eu estava confuso sobre o modo como a função reduzirByKey funciona no Spark. Suponha que tenhamos o seguinte código: val lines = sc.textFile("data.txt") val pairs = lines.map(s => (s, 1)) val counts = ...
Diferença entre org.apache.spark.ml.classification e org.apache.spark.mllib.classification
Estou escrevendo um aplicativo spark e gostaria de usar algoritmos no MLlib. No documento da API, encontrei duas classes diferentes para o mesmo algoritmo. Por exemplo, há um LogisticRegression em org.apache.spark.ml.classification e também ...
Método mais simples para lematização de texto no Scala e Spark
Eu quero usar a lematização em um arquivo de texto: surprise heard thump opened door small seedy man clasping package wrapped. upgrading system found review spring 2008 issue moody audio backed. omg left gotta wrap review order asap . understand ...