Resultados da pesquisa a pedido "apache-spark"
O Spark Structured Stream recebe mensagens de apenas uma partição do Kafka
Entendi a situação em que o spark pode transmitir e receber mensagens de apenas uma partição do tópico Kafka 2-patition. Meus tópicos:C:\bigdata\kafka_2.11-0.10.1.1\bin\windows>kafka-topics --create --zookeeper localhost:2181 --partitions 2 ...
Preenchendo lacunas nas séries temporais Spark
Tenho um problema ao lidar com dados de séries temporais. Devido a falhas de energia, alguns carimbos de data e hora estão ausentes no conjunto de dados. Preciso preencher essas lacunas adicionando linhas e, depois disso, posso interpolar os ...
Interseção de matriz no Spark SQL
Eu tenho uma tabela com uma coluna de tipo de matriz chamadawriter que tem valores comoarray[value1, value2], array[value2, value3].... etc. estou fazendoself join para obter resultados que tenham valores comuns entre matrizes. Eu ...
Por que o uso do cache nos conjuntos de dados de streaming falha com "AnalysisException: as consultas com fontes de streaming devem ser executadas com writeStream.start ()"?
SparkSession .builder .master("local[*]") .config("spark.sql.warehouse.dir", "C:/tmp/spark") .config("spark.sql.streaming.checkpointLocation", "C:/tmp/spark/spark-checkpoint") .appName("my-test") .getOrCreate .readStream .schema(schema) ...
Operação não permitida: alterar tabela e adicionar colunas (linha 1, pos 0)
Nós temosSpark 2.1, Thrift JDBC/ODBC servidor configurado comHive 2.1.1 e usandoBeeline. Instruções DDL como CRIAR TABELA, CRIAR TABELA COMO, CRIAR TABELA COMO, ALTER TABLE SET TBLPROPERTIES funciona bem. MasALTER TABLE ADD COLUMNS ...
No Pyspark HiveContext, o que é equivalente a SQL OFFSET?
Ou uma pergunta mais específica seria como processar grandes quantidades de dados que não cabem na memória de uma só vez? Com OFFSET, eu estava tentando executar o hiveContext.sql ("selecione ... limite 10 de deslocamento 10") enquanto ...
Reutilizar um Spark RDD em cache
Existe a possibilidade do Spark reutilizar um RDD em cache em outro aplicativo (ou em outra execução do mesmo aplicativo)? JavaRDD<ExampleClass> toCache = ... // transformations on the RDD toCache.cache(); // can this be reused somehow in ...
Diferença entre === null e isNull no Spark DataDrame
Estou um pouco confuso com a diferença quando estamos usando df.filter(col("c1") === null) and df.filter(col("c1").isNull)Mesmo dataframe que estou recebendo contagens === null mas zero conta em isNull. Por favor, ajude-me a entender a ...
Como o particionador de intervalo funciona no Spark?
Não estou tão claro sobre como o particionador de intervalo funciona no Spark. Ele usa (Amostragem de reservatório) para coletar amostras. E fiquei confuso com a maneira de calcular os limites da entrada. // This is the sample size we need to ...
Spark: codificador OneHot e pipeline de armazenamento (problema de dimensão do recurso)
Temos um pipeline (2.0.1) que consiste em vários estágios de transformação de recursos. Alguns desses estágios são codificadores OneHot. Idéia: classifique uma categoria baseada em número inteiro em n recursos independentes. Ao treinar o modelo ...