Resultados da pesquisa a pedido "apache-spark"

1 a resposta

O Spark Structured Stream recebe mensagens de apenas uma partição do Kafka

Entendi a situação em que o spark pode transmitir e receber mensagens de apenas uma partição do tópico Kafka 2-patition. Meus tópicos:C:\bigdata\kafka_2.11-0.10.1.1\bin\windows>kafka-topics --create --zookeeper localhost:2181 --partitions 2 ...

1 a resposta

Preenchendo lacunas nas séries temporais Spark

Tenho um problema ao lidar com dados de séries temporais. Devido a falhas de energia, alguns carimbos de data e hora estão ausentes no conjunto de dados. Preciso preencher essas lacunas adicionando linhas e, depois disso, posso interpolar os ...

2 a resposta

Interseção de matriz no Spark SQL

Eu tenho uma tabela com uma coluna de tipo de matriz chamadawriter que tem valores comoarray[value1, value2], array[value2, value3].... etc. estou fazendoself join para obter resultados que tenham valores comuns entre matrizes. Eu ...

1 a resposta

Por que o uso do cache nos conjuntos de dados de streaming falha com "AnalysisException: as consultas com fontes de streaming devem ser executadas com writeStream.start ()"?

SparkSession .builder .master("local[*]") .config("spark.sql.warehouse.dir", "C:/tmp/spark") .config("spark.sql.streaming.checkpointLocation", "C:/tmp/spark/spark-checkpoint") .appName("my-test") .getOrCreate .readStream .schema(schema) ...

3 a resposta

Operação não permitida: alterar tabela e adicionar colunas (linha 1, pos 0)

Nós temosSpark 2.1, Thrift JDBC/ODBC servidor configurado comHive 2.1.1 e usandoBeeline. Instruções DDL como CRIAR TABELA, CRIAR TABELA COMO, CRIAR TABELA COMO, ALTER TABLE SET TBLPROPERTIES funciona bem. MasALTER TABLE ADD COLUMNS ...

1 a resposta

No Pyspark HiveContext, o que é equivalente a SQL OFFSET?

Ou uma pergunta mais específica seria como processar grandes quantidades de dados que não cabem na memória de uma só vez? Com OFFSET, eu estava tentando executar o hiveContext.sql ("selecione ... limite 10 de deslocamento 10") enquanto ...

1 a resposta

Reutilizar um Spark RDD em cache

Existe a possibilidade do Spark reutilizar um RDD em cache em outro aplicativo (ou em outra execução do mesmo aplicativo)? JavaRDD<ExampleClass> toCache = ... // transformations on the RDD toCache.cache(); // can this be reused somehow in ...

2 a resposta

Diferença entre === null e isNull no Spark DataDrame

Estou um pouco confuso com a diferença quando estamos usando df.filter(col("c1") === null) and df.filter(col("c1").isNull)Mesmo dataframe que estou recebendo contagens === null mas zero conta em isNull. Por favor, ajude-me a entender a ...

1 a resposta

Como o particionador de intervalo funciona no Spark?

Não estou tão claro sobre como o particionador de intervalo funciona no Spark. Ele usa (Amostragem de reservatório) para coletar amostras. E fiquei confuso com a maneira de calcular os limites da entrada. // This is the sample size we need to ...

1 a resposta

Spark: codificador OneHot e pipeline de armazenamento (problema de dimensão do recurso)

Temos um pipeline (2.0.1) que consiste em vários estágios de transformação de recursos. Alguns desses estágios são codificadores OneHot. Idéia: classifique uma categoria baseada em número inteiro em n recursos independentes. Ao treinar o modelo ...