Resultados da pesquisa a pedido "apache-spark"
Como entender o tipo de formato da libsvm do Spark MLlib?
Eu sou novo no aprendizado do Spark MLlib. Quando eu estava lendo sobre o exemplo de regressão logística binomial, não entendi o tipo de formato "libsvm". (Regressão logística ...
PySpark 2.1: Importando módulo com quebras de UDF Hive connectivity
Atualmente, estou trabalhando com o Spark 2.1 e tenho um script principal que chama um módulo auxiliar que contém todos os meus métodos de transformação. Em outras palavras: main.py helper.pyNo topo da minhahelper.py file Tenho vários UDFs ...
envio de faísca falha ao detectar o módulo instalado no pip
Eu tenho um código python que possui as seguintes dependências de terceiros: import boto3 from warcio.archiveiterator import ArchiveIterator from warcio.recordloader import ArchiveLoadFailed import requests import botocore from requests_file ...
Diferença entre SparkContext, JavaSparkContext, SQLContext e SparkSession?
Qual é a diferença entreSparkContext, JavaSparkContext, SQLContext eSparkSession?Existe algum método para converter ou criar um Contexto usando umSparkSession?Posso substituir completamente todos os contextos usando uma única ...
Como a interface do usuário da web calcula a memória de armazenamento (na guia Executors)?
Estou tentando entender como o Spark 2.1.0 aloca memória nos nós. Suponha que eu esteja iniciando um PySpark REPL local, atribuindo 2 GB de memória: $ pyspark --conf spark.driver.memory=2gA interface do usuário do Spark informa que existem956,6 ...
Instalação e configuração do JanusGraph para um cluster Spark e Cassandra
Estou executando o JanusGraph (0.1.0) com Spark (1.6.1) em uma única máquina. Eu fiz minha configuração como descritoaqui [https://stackoverflow.com/questions/40105047/setup-and-configuration-of-titan-for-a-spark-cluster-and-cassandra] . Ao ...
Tabela de acesso em outro esquema que não o padrão (banco de dados) do sparklyr
Depois que eu consegui conectar ao nosso (novo) cluster usandosparklyr comyarn-client método, agora eu posso mostrar apenas as tabelas do esquema padrão. Como posso me conectar ascheme.table? UsandoDBI está funcionando, por exemplo com a seguinte ...
Como criar um conjunto de dados de mapas?
Estou usando o Spark 2.2 e estou tendo problemas ao tentar ligarspark.createDataset com umSeq doMap. Código e saída da minha sessão do Spark Shell a seguir: // createDataSet on Seq[T] where T = Int works scala> spark.createDataset(Seq(1, 2, ...
O arquivo Parquet com gzip pode ser dividido no HDFS for Spark?
Recebo mensagens confusas ao pesquisar e ler respostas na Internet sobre esse assunto. Alguém pode compartilhar sua experiência? Eu sei que csv compactado com gzip não é, mas talvez as estruturas internas de arquivo do Parquet sejam de tal ordem ...
erro spark-shell no Windows - ele pode ser ignorado se não estiver usando o hadoop?
Eu recebi o seguinte erro ao iniciar o spark-shell. Vou usar o Spark para processar dados no SQL Server. Posso ignorar os erros? java.io.IOException: Não foi possível localizar o executável null \ bin \ winutils.exe nos binários do ...