Resultados da pesquisa a pedido "apache-spark"

Eu sou novo emscala e faíscae tentando entender algumas coisas básicas por aqui. Versão Spark usada 1.5. por que o valor da soma não é atualizado no loop foreach abaixo. var sum=1; df.select("column1").distinct().foreach(row=>{ sum = sum +1 ...

dataframe pyspark apache-spark-sql

2 a resposta

Como excluir várias colunas no Spark dataframe em Python

Eu descobri que o PySpark tem um método chamadodrop mas parece que só pode eliminar uma coluna de cada vez. Alguma idéia de como soltar várias colunas ao mesmo tempo? df.drop(['col1','col2']) TypeError Traceback (most recent call ...

pyspark apache-zeppelin python

1 a resposta

Zeppelin: Scala Dataframe para python

Se eu tiver um parágrafo Scala com um DataFrame, posso compartilhá-lo e usá-lo com python. (Pelo que entendi, o pyspark usapy4j [https://www.py4j.org/advanced_topics.html#array]) Eu tentei isso: Parágrafo Scala: x.printSchema z.put("xtable", x ...

rdd

1 a resposta

O que é um glom? Qual a diferença entre mapPartitions?

Eu me deparei com oglom() método no RDD. Conforme a documentação Retorne um RDD criado coalescendo todos os elementos dentro de cada partição em uma matriz Fazglom embaralhe os dados pelas partições ou retornará apenas os dados da partição como ...

pycaffe python pyspark rdd

1 a resposta

Como classificar imagens usando Spark e Caffe

Estou usando o Caffe para fazer a classificação de imagens. Posso usar o MAC OS X, Pyhton. No momento, sei como classificar uma lista de imagens usando o Caffe com o python Spark, mas se quiser torná-lo mais rápido, quero usar o ...

apache-spark-sql scala dataframe

1 a resposta

O Spark do filtro DataFrame na string contém

estou usandoSpark 1.3.0 [http://spark.apache.org/releases/spark-release-1-3-0.html]eSpark Avro 1.0.0 [https://github.com/databricks/spark-avro/tree/c5612df9b1a9768689fec91655faa2a7073fd9fc#spark-sql-avro-library] . Estou trabalhando deo exemplo ...

python pyspark

5 a resposta

Adicionar Jar ao pyspark independente

Estou lançando um programa pyspark: $ export SPARK_HOME= $ export PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.9-src.zip $ pythonE o código py: from pyspark import SparkContext, ...

performance pyspark rdd

2 a resposta

Número de partições no RDD e desempenho no Spark

No Pyspark, posso criar um RDD a partir de uma lista e decidir quantas partições ter: sc = SparkContext() sc.parallelize(xrange(0, 10), 4)Como o número de partições que eu decido particionar meu RDD influencia o desempenho? E como isso ...

pyspark

2 a resposta

Saída VectorAssembler apenas para DenseVector?

Há algo muito irritante com a função do VectorAssembler. Atualmente, estou transformando um conjunto de colunas em uma única coluna de vetores e, em seguida, uso a função StandardScaler para aplicar a escala aos recursos incluídos. No entanto, ...

apache-spark-mllib

3 a resposta

Convertendo uma coluna de vetor em um quadro de dados novamente em uma coluna de matriz

Eu tenho um dataframe com duas colunas, uma das quais (chamada dist) é um vetor denso. Como posso convertê-lo novamente em uma coluna de matriz de números inteiros. +---+-----+ | id| dist| +---+-----+ |1.0|[2.0]| |2.0|[4.0]| ...

Página 151 do 167

149 150151152 153

Resultados da pesquisa a pedido "apache-spark"

Valor de retorno Scala calculado em foreach

Como excluir várias colunas no Spark dataframe em Python

Zeppelin: Scala Dataframe para python

Tags populares

O que é um glom? Qual a diferença entre mapPartitions?

Como classificar imagens usando Spark e Caffe

O Spark do filtro DataFrame na string contém

Adicionar Jar ao pyspark independente

Número de partições no RDD e desempenho no Spark

Saída VectorAssembler apenas para DenseVector?

Convertendo uma coluna de vetor em um quadro de dados novamente em uma coluna de matriz

Você é muito ativo! É ótimo!

Resultados da pesquisa a pedido "apache-spark"

Tags populares