Spark mllib prevendo número estranho ou NaN

Question

Jul 24, 2015, 12:53 AM

apache-spark-mllib python gradient-descent pyspark apache-spark

Spark mllib prevendo número estranho ou NaN

Eu sou novo no Apache Spark e estou tentando usar a biblioteca de aprendizado de máquina para prever alguns dados. Meu conjunto de dados agora é de apenas cerca de 350 pontos. Aqui estão 7 desses pontos:

"365","4",41401.387,5330569
"364","3",51517.886,5946290
"363","2",55059.838,6097388
"362","1",43780.977,5304694
"361","7",46447.196,5471836
"360","6",50656.121,5849862
"359","5",44494.476,5460289

Aqui está o meu código:

def parsePoint(line):
    split = map(sanitize, line.split(','))
    rev = split.pop(-2)
    return LabeledPoint(rev, split)

def sanitize(value):
    return float(value.strip('"'))

parsedData = textFile.map(parsePoint)
model = LinearRegressionWithSGD.train(parsedData, iterations=10)

print model.predict(parsedData.first().features)

A previsão é algo totalmente louco, como-6.92840330273e+136. Se eu não definir iterações emtrain(), então eu recebonan como um resultado. O que estou fazendo errado? É o meu conjunto de dados (o tamanho dele, talvez?) Ou a minha configuração?