Resultados da pesquisa a pedido "apache-spark"
Lendo arquivos csv no zeppelin usando spark-csv
Eu quero ler arquivos csv no Zeppelin e gostaria de usar o pacote spark-csv do databricks:https://github.com/databricks/spark-csv [https://github.com/databricks/spark-csv] No spark-shell, posso usar o spark-csv com spark-shell --packages ...
Por que usar uma UDF em uma consulta SQL leva a produtos cartesianos?
eu viDatabricks-Question [https://forums.databricks.com/questions/1907/performance-degradation-when-using-a-custom-udfs-i.html] e não entendo Por que usar UDFs leva a um produto cartesiano em vez de uma junção externa completa? Obviamente, o ...
Posso gravar um arquivo HDFS (ou local) de texto sem formatação de um programa Spark, não de um RDD?
Eu tenho um programa Spark (em Scala) e umSparkContext. Estou escrevendo alguns arquivos comRDDésaveAsTextFile. Na minha máquina local, posso usar um caminho de arquivo local e ele funciona com o sistema de arquivos local. No meu cluster, ele ...
Exemplo de métricas do Spark no wordcount
Eu li a seção Métricas emsite da faísca [http://spark.apache.org/docs/1.3.1/monitoring.html]. Desejo experimentá-lo no exemplo de contagem de palavras, não posso fazer isso funcionar. spark / conf / metrics.properties: # Enable CsvSink for all ...
Como usar o Scala e o Python em um mesmo projeto Spark?
É possível canalizarSpark RDDpara Python? Porque eu preciso de uma biblioteca python para fazer algum cálculo nos meus dados, mas meu principal projeto Spark é baseado no Scala. Existe uma maneira de misturar os dois ou permitir que o python ...
Codifique e monte vários recursos no PySpark
Eu tenho uma classe Python que estou usando para carregar e processar alguns dados no Spark. Entre várias coisas que preciso fazer, estou gerando uma lista de variáveis fictícias derivadas de várias colunas em um dataframe do Spark. Meu problema ...
Como faço para dividir um RDD em dois ou mais RDDs?
Estou procurando uma maneira de dividir um RDD em dois ou mais RDDs. O mais próximo que eu vi éScala Spark: Coleção dividida em vários RDD? [https://stackoverflow.com/questions/27231524/scala-spark-split-collection-into-several-rdd] que ainda é ...
Spark Streaming no EC2: exceção no segmento "main" java.lang.ExceptionInInitializerError
Estou tentando executar o envio de spark em um arquivo jar que eu criei. Quando o executo localmente na minha máquina, ele funciona corretamente, mas quando implantado no Amazon EC2, ele retorna o seguinte erro. root@ip-172-31-47-217 bin]$ ...
Como restaurar RDD de pares (chave, valor) depois que ele foi armazenado / lido de um arquivo de texto
Salvei meu RDD de pares (chave, valor) em um arquivo de texto usando saveAsTextFile. Depois de ler o arquivo de texto usandosc.textFile("filename.txt") comando, acabei com strings, em vez de pares (chave, valor). Minhas chaves costumavam ser ...
Convertendo RDD [org.apache.spark.sql.Row] para RDD [org.apache.spark.mllib.linalg.Vector]
Eu sou relativamente novo no Spark e Scala. Estou começando com o seguinte quadro de dados (coluna única composta por um denso vetor de duplas): scala> val scaledDataOnly_pruned = scaledDataOnly.select("features") scaledDataOnly_pruned: ...