Resultados da pesquisa a pedido "apache-spark"

2 a resposta

O Apache Spark lê S3: não é possível capturar objetos thread.lock

Então, eu quero que meu Spark App leia algum texto do Amazon S3. Escrevi o seguinte script simples: import boto3 s3_client = boto3.client('s3') text_keys = ["key1.txt", "key2.txt"] data = sc.parallelize(text_keys).flatMap(lambda ...

2 a resposta

Melhor abordagem do Spark Consultar Dataframe para melhorar o desempenho

Dataframe A (milhões de registros), uma das colunas é create_date, modified_date Os registros do Dataframe B 500 possuem data de início e data de término Abordagem atual: Select a.*,b.* from a join b on a.create_date between start_date and ...

3 a resposta

Como servir um modelo Spark MLlib?

Estou avaliando ferramentas para aplicativos baseados em ML de produção e uma das nossas opções é o Spark MLlib, mas tenho algumas dúvidas sobre como servir um modelo depois de treinado? Por exemplo, no Azure ML, uma vez treinado, o modelo é ...

5 a resposta

Como fatiar e somar elementos da coluna array?

Eu gostaria desum (ou execute outras funções agregadas também) na coluna da matriz usando o SparkSQL. Eu tenho uma mesa como +-------+-------+---------------------------------+ |dept_id|dept_nm| emp_details| ...

3 a resposta

Juntando quadros de dados Spark na chave

Eu construí dois quadros de dados. Como podemos juntar vários quadros de dados Spark? Por exemplo : PersonDf, ProfileDf com uma coluna comum comopersonId como (tecla). Agora, como podemos ter um Dataframe combinandoPersonDf eProfileDf?

1 a resposta

Spark: desempenho da consulta PySpark + Cassandra

Eu configurei o Spark 2.0 e o Cassandra 3.0 em uma máquina local (8 núcleos, 16 GB de RAM) para fins de teste e editeispark-defaults.conf do seguinte modo: spark.python.worker.memory 1g spark.executor.cores 4 spark.executor.instances ...

2 a resposta

como ler json com esquema no spark dataframes / spark sql

sql / dataframes, por favor me ajude ou forneça uma boa sugestão sobre como ler este json { "billdate":"2016-08-08', "accountid":"xxx" "accountdetails":{ "total":"1.1" "category":[ { "desc":"one", "currentinfo":{ "value":"10" }, "subcategory":[ ...

2 a resposta

Se podemos atualizar o modelo existente no spark-ml / spark-mllib?

Estamos usando o spark-ml para construir o modelo a partir dos dados existentes. Novos dados são fornecidos diariamente. Existe uma maneira de apenas poder ler os novos dados e atualizar o modelo existente sem precisar ler todos os dados e ...

4 a resposta

Como salvar um DataFrame como CSV compactado (compactado com gz)?

Eu uso Spark 1.6.0 e Scala. Quero salvar um DataFrame como formato CSV compactado. Aqui está o que eu tenho até agora (suponha que eu já tenhadf esc ComoSparkContext): //set the conf to the codec I ...

1 a resposta

Número de partições do Spark Dataframe

Alguém pode explicar sobre o número de partições que serão criadas para um Spark Dataframe. Eu sei que para um RDD, ao criá-lo, podemos mencionar o número de partições como abaixo. val RDD1 = sc.textFile("path" , 6)Mas, para o quadro de dados ...