Resultados da pesquisa a pedido "apache-spark"

2 a resposta

Valor de retorno Scala calculado em foreach

Eu sou novo emscala e faíscae tentando entender algumas coisas básicas por aqui. Versão Spark usada 1.5. por que o valor da soma não é atualizado no loop foreach abaixo. var sum=1; df.select("column1").distinct().foreach(row=>{ sum = sum +1 ...

2 a resposta

Como excluir várias colunas no Spark dataframe em Python

Eu descobri que o PySpark tem um método chamadodrop mas parece que só pode eliminar uma coluna de cada vez. Alguma idéia de como soltar várias colunas ao mesmo tempo? df.drop(['col1','col2']) TypeError Traceback (most recent call ...

1 a resposta

Zeppelin: Scala Dataframe para python

Se eu tiver um parágrafo Scala com um DataFrame, posso compartilhá-lo e usá-lo com python. (Pelo que entendi, o pyspark usapy4j [https://www.py4j.org/advanced_topics.html#array]) Eu tentei isso: Parágrafo Scala: x.printSchema z.put("xtable", x ...

1 a resposta

O que é um glom? Qual a diferença entre mapPartitions?

Eu me deparei com oglom() método no RDD. Conforme a documentação Retorne um RDD criado coalescendo todos os elementos dentro de cada partição em uma matriz Fazglom embaralhe os dados pelas partições ou retornará apenas os dados da partição como ...

1 a resposta

Como classificar imagens usando Spark e Caffe

Estou usando o Caffe para fazer a classificação de imagens. Posso usar o MAC OS X, Pyhton. No momento, sei como classificar uma lista de imagens usando o Caffe com o python Spark, mas se quiser torná-lo mais rápido, quero usar o ...

1 a resposta

O Spark do filtro DataFrame na string contém

estou usandoSpark 1.3.0 [http://spark.apache.org/releases/spark-release-1-3-0.html]eSpark Avro 1.0.0 [https://github.com/databricks/spark-avro/tree/c5612df9b1a9768689fec91655faa2a7073fd9fc#spark-sql-avro-library] . Estou trabalhando deo exemplo ...

5 a resposta

Adicionar Jar ao pyspark independente

Estou lançando um programa pyspark: $ export SPARK_HOME= $ export PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.9-src.zip $ pythonE o código py: from pyspark import SparkContext, ...

2 a resposta

Número de partições no RDD e desempenho no Spark

No Pyspark, posso criar um RDD a partir de uma lista e decidir quantas partições ter: sc = SparkContext() sc.parallelize(xrange(0, 10), 4)Como o número de partições que eu decido particionar meu RDD influencia o desempenho? E como isso ...

2 a resposta

Saída VectorAssembler apenas para DenseVector?

Há algo muito irritante com a função do VectorAssembler. Atualmente, estou transformando um conjunto de colunas em uma única coluna de vetores e, em seguida, uso a função StandardScaler para aplicar a escala aos recursos incluídos. No entanto, ...

3 a resposta

Convertendo uma coluna de vetor em um quadro de dados novamente em uma coluna de matriz

Eu tenho um dataframe com duas colunas, uma das quais (chamada dist) é um vetor denso. Como posso convertê-lo novamente em uma coluna de matriz de números inteiros. +---+-----+ | id| dist| +---+-----+ |1.0|[2.0]| |2.0|[4.0]| ...