Resultados da pesquisa a pedido "apache-spark"

6 a resposta

Lendo arquivos csv no zeppelin usando spark-csv

Eu quero ler arquivos csv no Zeppelin e gostaria de usar o pacote spark-csv do databricks:https://github.com/databricks/spark-csv [https://github.com/databricks/spark-csv] No spark-shell, posso usar o spark-csv com spark-shell --packages ...

1 a resposta

Por que usar uma UDF em uma consulta SQL leva a produtos cartesianos?

eu viDatabricks-Question [https://forums.databricks.com/questions/1907/performance-degradation-when-using-a-custom-udfs-i.html] e não entendo Por que usar UDFs leva a um produto cartesiano em vez de uma junção externa completa? Obviamente, o ...

4 a resposta

Posso gravar um arquivo HDFS (ou local) de texto sem formatação de um programa Spark, não de um RDD?

Eu tenho um programa Spark (em Scala) e umSparkContext. Estou escrevendo alguns arquivos comRDDésaveAsTextFile. Na minha máquina local, posso usar um caminho de arquivo local e ele funciona com o sistema de arquivos local. No meu cluster, ele ...

1 a resposta

Exemplo de métricas do Spark no wordcount

Eu li a seção Métricas emsite da faísca [http://spark.apache.org/docs/1.3.1/monitoring.html]. Desejo experimentá-lo no exemplo de contagem de palavras, não posso fazer isso funcionar. spark / conf / metrics.properties: # Enable CsvSink for all ...

3 a resposta

Como usar o Scala e o Python em um mesmo projeto Spark?

É possível canalizarSpark RDDpara Python? Porque eu preciso de uma biblioteca python para fazer algum cálculo nos meus dados, mas meu principal projeto Spark é baseado no Scala. Existe uma maneira de misturar os dois ou permitir que o python ...

1 a resposta

Codifique e monte vários recursos no PySpark

Eu tenho uma classe Python que estou usando para carregar e processar alguns dados no Spark. Entre várias coisas que preciso fazer, estou gerando uma lista de variáveis fictícias derivadas de várias colunas em um dataframe do Spark. Meu problema ...

4 a resposta

Como faço para dividir um RDD em dois ou mais RDDs?

Estou procurando uma maneira de dividir um RDD em dois ou mais RDDs. O mais próximo que eu vi éScala Spark: Coleção dividida em vários RDD? [https://stackoverflow.com/questions/27231524/scala-spark-split-collection-into-several-rdd] que ainda é ...

1 a resposta

Spark Streaming no EC2: exceção no segmento "main" java.lang.ExceptionInInitializerError

Estou tentando executar o envio de spark em um arquivo jar que eu criei. Quando o executo localmente na minha máquina, ele funciona corretamente, mas quando implantado no Amazon EC2, ele retorna o seguinte erro. root@ip-172-31-47-217 bin]$ ...

2 a resposta

Como restaurar RDD de pares (chave, valor) depois que ele foi armazenado / lido de um arquivo de texto

Salvei meu RDD de pares (chave, valor) em um arquivo de texto usando saveAsTextFile. Depois de ler o arquivo de texto usandosc.textFile("filename.txt") comando, acabei com strings, em vez de pares (chave, valor). Minhas chaves costumavam ser ...

3 a resposta

Convertendo RDD [org.apache.spark.sql.Row] para RDD [org.apache.spark.mllib.linalg.Vector]

Eu sou relativamente novo no Spark e Scala. Estou começando com o seguinte quadro de dados (coluna única composta por um denso vetor de duplas): scala> val scaledDataOnly_pruned = scaledDataOnly.select("features") scaledDataOnly_pruned: ...