Resultados da pesquisa a pedido "apache-spark"

Eu quero ler arquivos csv no Zeppelin e gostaria de usar o pacote spark-csv do databricks:https://github.com/databricks/spark-csv [https://github.com/databricks/spark-csv] No spark-shell, posso usar o spark-csv com spark-shell --packages ...

apache-spark-sql sql

1 a resposta

Por que usar uma UDF em uma consulta SQL leva a produtos cartesianos?

eu viDatabricks-Question [https://forums.databricks.com/questions/1907/performance-degradation-when-using-a-custom-udfs-i.html] e não entendo Por que usar UDFs leva a um produto cartesiano em vez de uma junção externa completa? Obviamente, o ...

scala hadoop

4 a resposta

Posso gravar um arquivo HDFS (ou local) de texto sem formatação de um programa Spark, não de um RDD?

Eu tenho um programa Spark (em Scala) e umSparkContext. Estou escrevendo alguns arquivos comRDDésaveAsTextFile. Na minha máquina local, posso usar um caminho de arquivo local e ele funciona com o sistema de arquivos local. No meu cluster, ele ...

metrics

1 a resposta

Exemplo de métricas do Spark no wordcount

Eu li a seção Métricas emsite da faísca [http://spark.apache.org/docs/1.3.1/monitoring.html]. Desejo experimentá-lo no exemplo de contagem de palavras, não posso fazer isso funcionar. spark / conf / metrics.properties: # Enable CsvSink for all ...

python spark-streaming pyspark scala

3 a resposta

Como usar o Scala e o Python em um mesmo projeto Spark?

É possível canalizarSpark RDDpara Python? Porque eu preciso de uma biblioteca python para fazer algum cálculo nos meus dados, mas meu principal projeto Spark é baseado no Scala. Existe uma maneira de misturar os dois ou permitir que o python ...

apache-spark-mllib apache-spark-ml apache-spark-sql python

1 a resposta

Codifique e monte vários recursos no PySpark

Eu tenho uma classe Python que estou usando para carregar e processar alguns dados no Spark. Entre várias coisas que preciso fazer, estou gerando uma lista de variáveis fictícias derivadas de várias colunas em um dataframe do Spark. Meu problema ...

pyspark rdd

4 a resposta

Como faço para dividir um RDD em dois ou mais RDDs?

Estou procurando uma maneira de dividir um RDD em dois ou mais RDDs. O mais próximo que eu vi éScala Spark: Coleção dividida em vários RDD? [https://stackoverflow.com/questions/27231524/scala-spark-split-collection-into-several-rdd] que ainda é ...

spark-streaming maven amazon-ec2 scala

1 a resposta

Spark Streaming no EC2: exceção no segmento "main" java.lang.ExceptionInInitializerError

Estou tentando executar o envio de spark em um arquivo jar que eu criei. Quando o executo localmente na minha máquina, ele funciona corretamente, mas quando implantado no Amazon EC2, ele retorna o seguinte erro. root@ip-172-31-47-217 bin]$ ...

pyspark python

2 a resposta

Como restaurar RDD de pares (chave, valor) depois que ele foi armazenado / lido de um arquivo de texto

Salvei meu RDD de pares (chave, valor) em um arquivo de texto usando saveAsTextFile. Depois de ler o arquivo de texto usandosc.textFile("filename.txt") comando, acabei com strings, em vez de pares (chave, valor). Minhas chaves costumavam ser ...

scala rdd spark-dataframe apache-spark-mllib

3 a resposta

Convertendo RDD [org.apache.spark.sql.Row] para RDD [org.apache.spark.mllib.linalg.Vector]

Eu sou relativamente novo no Spark e Scala. Estou começando com o seguinte quadro de dados (coluna única composta por um denso vetor de duplas): scala> val scaledDataOnly_pruned = scaledDataOnly.select("features") scaledDataOnly_pruned: ...

Página 127 do 167

125 126127128 129

Resultados da pesquisa a pedido "apache-spark"

Lendo arquivos csv no zeppelin usando spark-csv

Por que usar uma UDF em uma consulta SQL leva a produtos cartesianos?

Posso gravar um arquivo HDFS (ou local) de texto sem formatação de um programa Spark, não de um RDD?

Tags populares

Exemplo de métricas do Spark no wordcount

Como usar o Scala e o Python em um mesmo projeto Spark?

Codifique e monte vários recursos no PySpark

Como faço para dividir um RDD em dois ou mais RDDs?

Spark Streaming no EC2: exceção no segmento "main" java.lang.ExceptionInInitializerError

Como restaurar RDD de pares (chave, valor) depois que ele foi armazenado / lido de um arquivo de texto

Convertendo RDD [org.apache.spark.sql.Row] para RDD [org.apache.spark.mllib.linalg.Vector]

Você é muito ativo! É ótimo!

Resultados da pesquisa a pedido "apache-spark"

Tags populares