Resultados da pesquisa a pedido "apache-spark"
Valor de retorno Scala calculado em foreach
Eu sou novo emscala e faíscae tentando entender algumas coisas básicas por aqui. Versão Spark usada 1.5. por que o valor da soma não é atualizado no loop foreach abaixo. var sum=1; df.select("column1").distinct().foreach(row=>{ sum = sum +1 ...
Como excluir várias colunas no Spark dataframe em Python
Eu descobri que o PySpark tem um método chamadodrop mas parece que só pode eliminar uma coluna de cada vez. Alguma idéia de como soltar várias colunas ao mesmo tempo? df.drop(['col1','col2']) TypeError Traceback (most recent call ...
Zeppelin: Scala Dataframe para python
Se eu tiver um parágrafo Scala com um DataFrame, posso compartilhá-lo e usá-lo com python. (Pelo que entendi, o pyspark usapy4j [https://www.py4j.org/advanced_topics.html#array]) Eu tentei isso: Parágrafo Scala: x.printSchema z.put("xtable", x ...
O que é um glom? Qual a diferença entre mapPartitions?
Eu me deparei com oglom() método no RDD. Conforme a documentação Retorne um RDD criado coalescendo todos os elementos dentro de cada partição em uma matriz Fazglom embaralhe os dados pelas partições ou retornará apenas os dados da partição como ...
Como classificar imagens usando Spark e Caffe
Estou usando o Caffe para fazer a classificação de imagens. Posso usar o MAC OS X, Pyhton. No momento, sei como classificar uma lista de imagens usando o Caffe com o python Spark, mas se quiser torná-lo mais rápido, quero usar o ...
O Spark do filtro DataFrame na string contém
estou usandoSpark 1.3.0 [http://spark.apache.org/releases/spark-release-1-3-0.html]eSpark Avro 1.0.0 [https://github.com/databricks/spark-avro/tree/c5612df9b1a9768689fec91655faa2a7073fd9fc#spark-sql-avro-library] . Estou trabalhando deo exemplo ...
Adicionar Jar ao pyspark independente
Estou lançando um programa pyspark: $ export SPARK_HOME= $ export PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.9-src.zip $ pythonE o código py: from pyspark import SparkContext, ...
Número de partições no RDD e desempenho no Spark
No Pyspark, posso criar um RDD a partir de uma lista e decidir quantas partições ter: sc = SparkContext() sc.parallelize(xrange(0, 10), 4)Como o número de partições que eu decido particionar meu RDD influencia o desempenho? E como isso ...
Saída VectorAssembler apenas para DenseVector?
Há algo muito irritante com a função do VectorAssembler. Atualmente, estou transformando um conjunto de colunas em uma única coluna de vetores e, em seguida, uso a função StandardScaler para aplicar a escala aos recursos incluídos. No entanto, ...
Convertendo uma coluna de vetor em um quadro de dados novamente em uma coluna de matriz
Eu tenho um dataframe com duas colunas, uma das quais (chamada dist) é um vetor denso. Como posso convertê-lo novamente em uma coluna de matriz de números inteiros. +---+-----+ | id| dist| +---+-----+ |1.0|[2.0]| |2.0|[4.0]| ...