Resultados da pesquisa a pedido "apache-spark"
Executando o zeppelin no modo de cluster spark
Estou usando este tutorialconjunto de faíscas no modo de fios no contêiner de estivador [https://zeppelin.apache.org/docs/0.7.0/install/spark_cluster_mode.html#spark-on-yarn-mode] para iniciar o zeppelin no cluster de faíscas no modo de fios. No ...
Como obter compensações Kafka para consultas estruturadas para gerenciamento manual e confiável de compensações?
O Spark 2.2 introduziu uma fonte de streaming estruturada do Kafka. Pelo que entendi, ele conta com o diretório de ponto de verificação do HDFS para armazenar compensações e garantir uma entrega de mensagem "exatamente uma vez". Mas docas ...
Diferença entre createTempview e createGlobaltempview e CreateorReplaceTempview no spark 2.1?
Qual é a diferença entrecreateTempview ecreateGlobaltempview eCreateorReplaceTempview no spark 2,1 ??
converter string com nanossegundo em timestamp no spark
Existe uma maneira de converter um valor de carimbo de data / hora com nano segundos para carimbo de data e hora no Spark. Recebo a entrada de um arquivo csv e o valor do carimbo de data e hora é do formato12-12-2015 14:09:36.992415+01:00. Este é ...
Como posso contar a média do Spark RDD?
Tenho um problema com o Spark Scala, que quero contar a média dos dados Rdd, crio um novo RDD como este, [(2,110),(2,130),(2,120),(3,200),(3,206),(3,206),(4,150),(4,160),(4,170)]Quero contá-los ...
Como escrever Pyspark UDAF em várias colunas?
Eu tenho os seguintes dados em um dataframe pyspark chamadoend_stats_df: values start end cat1 cat2 10 1 2 A B 11 1 2 C B 12 1 2 D B 510 1 2 D C 550 1 2 C B 500 1 2 A B 80 1 3 A BE eu quero agregá-lo da seguinte maneira: Eu quero usar as ...
Particionamento do parquet Spark: grande número de arquivos
Estou tentando aproveitar o particionamento de faísca. Eu estava tentando fazer algo como data.write.partitionBy("key").parquet("/location")O problema aqui em cada partição cria um grande número de arquivos parquet, que resultam em ...
Por que o Apache-Spark - Python é tão lento localmente em comparação com os pandas?
Uma faísca novato aqui. Recentemente, comecei a brincar com o spark na minha máquina local em dois núcleos usando o comando pyspark --master local [2] Eu tenho um arquivo de texto de 393 Mb que tem quase um milhão de linhas. Eu queria realizar ...
Coluna GroupBy e linhas de filtro com valor máximo no Pyspark
Estou quase certo de que isso já foi solicitado antes, masuma pesquisa através do ...
Como monitorar continuamente um diretório usando o Spark Structured Streaming
Quero que o Spark monitore continuamente um diretório e leia os arquivos CSV usandospark.readStream assim que o arquivo aparecer nesse diretório. Não inclua uma solução de Spark Streaming. Estou procurando uma maneira de fazer isso usando o ...