Resultados da pesquisa a pedido "apache-spark"

1 a resposta

Como entender o tipo de formato da libsvm do Spark MLlib?

Eu sou novo no aprendizado do Spark MLlib. Quando eu estava lendo sobre o exemplo de regressão logística binomial, não entendi o tipo de formato "libsvm". (Regressão logística ...

1 a resposta

PySpark 2.1: Importando módulo com quebras de UDF Hive connectivity

Atualmente, estou trabalhando com o Spark 2.1 e tenho um script principal que chama um módulo auxiliar que contém todos os meus métodos de transformação. Em outras palavras: main.py helper.pyNo topo da minhahelper.py file Tenho vários UDFs ...

2 a resposta

envio de faísca falha ao detectar o módulo instalado no pip

Eu tenho um código python que possui as seguintes dependências de terceiros: import boto3 from warcio.archiveiterator import ArchiveIterator from warcio.recordloader import ArchiveLoadFailed import requests import botocore from requests_file ...

3 a resposta

Diferença entre SparkContext, JavaSparkContext, SQLContext e SparkSession?

Qual é a diferença entreSparkContext, JavaSparkContext, SQLContext eSparkSession?Existe algum método para converter ou criar um Contexto usando umSparkSession?Posso substituir completamente todos os contextos usando uma única ...

1 a resposta

Como a interface do usuário da web calcula a memória de armazenamento (na guia Executors)?

Estou tentando entender como o Spark 2.1.0 aloca memória nos nós. Suponha que eu esteja iniciando um PySpark REPL local, atribuindo 2 GB de memória: $ pyspark --conf spark.driver.memory=2gA interface do usuário do Spark informa que existem956,6 ...

1 a resposta

Instalação e configuração do JanusGraph para um cluster Spark e Cassandra

Estou executando o JanusGraph (0.1.0) com Spark (1.6.1) em uma única máquina. Eu fiz minha configuração como descritoaqui [https://stackoverflow.com/questions/40105047/setup-and-configuration-of-titan-for-a-spark-cluster-and-cassandra] . Ao ...

2 a resposta

Tabela de acesso em outro esquema que não o padrão (banco de dados) do sparklyr

Depois que eu consegui conectar ao nosso (novo) cluster usandosparklyr comyarn-client método, agora eu posso mostrar apenas as tabelas do esquema padrão. Como posso me conectar ascheme.table? UsandoDBI está funcionando, por exemplo com a seguinte ...

2 a resposta

Como criar um conjunto de dados de mapas?

Estou usando o Spark 2.2 e estou tendo problemas ao tentar ligarspark.createDataset com umSeq doMap. Código e saída da minha sessão do Spark Shell a seguir: // createDataSet on Seq[T] where T = Int works scala> spark.createDataset(Seq(1, 2, ...

1 a resposta

O arquivo Parquet com gzip pode ser dividido no HDFS for Spark?

Recebo mensagens confusas ao pesquisar e ler respostas na Internet sobre esse assunto. Alguém pode compartilhar sua experiência? Eu sei que csv compactado com gzip não é, mas talvez as estruturas internas de arquivo do Parquet sejam de tal ordem ...

1 a resposta

erro spark-shell no Windows - ele pode ser ignorado se não estiver usando o hadoop?

Eu recebi o seguinte erro ao iniciar o spark-shell. Vou usar o Spark para processar dados no SQL Server. Posso ignorar os erros? java.io.IOException: Não foi possível localizar o executável null \ bin \ winutils.exe nos binários do ...