Resultados da pesquisa a pedido "apache-spark"

1 a resposta

O pipeline do Spark ML causa java.lang.Exception: falha ao compilar… Código… cresce além de 64 KB

Usando o Spark 2.0, estou tentando executar um simples VectorAssembler em um pipeline pyspark ML, da seguinte maneira: feature_assembler = VectorAssembler(inputCols=['category_count', 'name_count'], \ outputCol="features") pipeline = ...

3 a resposta

Spark java.lang.StackOverflowError

Estou usando o spark para calcular o pagerank dos comentários dos usuários, mas continuo recebendo o Sparkjava.lang.StackOverflowError quando executo meu código em um grande conjunto de dados (entradas de 40k). ao executar o código em um pequeno ...

4 a resposta

Converter string pyspark em formato de data

Eu tenho um dataframe pyspark de data com uma coluna de string no formato deMM-dd-yyyy e estou tentando converter isso em uma coluna de data. Eu tentei: df.select(to_date(df.STRING_COLUMN).alias('new_date')).show() e recebo uma sequência de ...

1 a resposta

IDs não inteiros no Spark MLlib ALS

Eu gostaria de usar val ratings = data.map(_.split(',') match { case Array(user,item,rate) => Rating(user.toInt,item.toInt,rate.toFloat) }) val model = ALS.train(ratings,rank,numIterations,alpha)No entanto, os dados do usuário que eu recebo são ...

0 a resposta

Spark Scala - java.util.NoSuchElementException e limpeza de dados

Eu tive umproblema semelhante antes [https://stackoverflow.com/questions/38002753/scala-spark-dataframe-show-throws-java-util-nosuchelementexception-after-a] , mas estou procurando uma resposta generalizável. estou ...

1 a resposta

Passe columnNames dinamicamente para cassandraTable (). Select ()

Estou lendo a consulta de um arquivo em tempo de execução e executando-a no ambiente SPark + Cassandra. Estou executando: sparkContext.cassandraTable.("keyspaceName", "colFamilyName").select("col1", "col2", "col3").where("some condition = ...

1 a resposta

Como filtrar dados usando funções de janela no spark

Eu tenho os seguintes dados: rowid uid time code 1 1 5 a 2 1 6 b 3 1 7 c 4 2 8 a 5 2 9 c 6 2 9 c 7 2 10 c 8 2 11 a 9 2 12 cAgora eu queria filtrar os dados de forma que eu possa remover as linhas 6 e 7. Para um uid específico, eu quero manter ...

2 a resposta

O Spark CrossValidatorModel acessa outros modelos que não o bestModel?

Estou usando o Spark 1.6.1: Atualmente, estou usando um CrossValidator para treinar meu ML Pipeline com vários parâmetros. Após o processo de treinamento, posso usar a propriedade bestModel do CrossValidatorModel para obter o Modelo com melhor ...

1 a resposta

Spark no Windows - O que exatamente é o winutils e por que precisamos dele?

Estou curioso! Que eu saiba, o HDFS precisa que processos de modo de dados sejam executados, e é por isso que está funcionando apenas em servidores. O Spark pode ser executado localmente, mas precisa do winutils.exe, que é um componente ...

2 a resposta

Avaliação do PySpark

Estou tentando o código a seguir, que adiciona um número a cada linha em um RDD e retorna uma lista de RDDs usando o PySpark. from pyspark.context import SparkContext file = "file:///home/sree/code/scrap/sample.txt" sc = SparkContext('local', ...