Resultados da pesquisa a pedido "apache-spark"

6 a resposta

O Apache Spark não exclui diretórios temporários

Após a conclusão de um programa spark, restam 3 diretórios temporários no diretório temporário. Os nomes dos diretórios são os seguintes: spark-2e389487-40cc-4a82-a5c7-353c0feefbb7 Os diretórios estão vazios. E quando o programa Spark é ...

3 a resposta

A inicialização do modo Apache Spark YARN leva muito tempo (mais de 10 segundos)

Estou executando um aplicativo spark no modo cliente YARN ou cluster YARN. Mas parece levar muito tempo para iniciar. Demora mais de 10 segundos para inicializar o contexto de faísca. Isso é normal? Ou pode ser otimizado? O ambiente é o ...

3 a resposta

Como imprimir elementos de partição RDD específica no Spark?

Como imprimir os elementos de uma partição específica, digamos a 5ª, sozinho? val distData = sc.parallelize(1 to 50, 10)

4 a resposta

Como transformar uma variável categórica no Spark em um conjunto de colunas codificadas como {0,1}?

Estou tentando executar uma regressão logística (LogisticRegressionWithLBFGS) com Spark MLlib (com Scala) em um conjunto de dados que contém variáveis categóricas. Descobri que o Spark não foi capaz de trabalhar com esse tipo de variável. Em R, ...

1 a resposta

Cassandra storage internal

Estou tentando entender o que exatamente acontece internamente no nível do mecanismo de armazenamento quando uma linha (colunas) é inserida em uma tabela de estilo CQL. CREATE TABLE log_date ( userid bigint, time timeuuid, category text, ...

1 a resposta

Criar RDD do Spark no arquivo s3

Estou tentando criar o JAVARDD no arquivo s3, mas não consigo criar o rdd. Alguém pode me ajudar a resolver esse problema. Código: SparkConf conf = new SparkConf().setAppName(appName).setMaster("local"); JavaSparkContext javaSparkContext = new ...

1 a resposta

Como nivelar os dados de diferentes tipos de dados usando o pacote Sparklyr?

Introdução O código R é gravado usando o pacote Sparklyr para criar o esquema do banco de dados.[Código e banco de dados reproduzíveis são fornecidos] Resultado Existente root |-- contributors : string |-- created_at : string |-- entities ...

4 a resposta

redByKey: Como funciona internamente?

Eu sou novo no Spark e Scala. Eu estava confuso sobre o modo como a função reduzirByKey funciona no Spark. Suponha que tenhamos o seguinte código: val lines = sc.textFile("data.txt") val pairs = lines.map(s => (s, 1)) val counts = ...

2 a resposta

Diferença entre org.apache.spark.ml.classification e org.apache.spark.mllib.classification

Estou escrevendo um aplicativo spark e gostaria de usar algoritmos no MLlib. No documento da API, encontrei duas classes diferentes para o mesmo algoritmo. Por exemplo, há um LogisticRegression em org.apache.spark.ml.classification e também ...

3 a resposta

Método mais simples para lematização de texto no Scala e Spark

Eu quero usar a lematização em um arquivo de texto: surprise heard thump opened door small seedy man clasping package wrapped. upgrading system found review spring 2008 issue moody audio backed. omg left gotta wrap review order asap . understand ...