Suchergebnisse für Anfrage "apache-spark"

2 die antwort

Spark: Speichern von RDD in einem bereits vorhandenen Pfad in HDFS

Ich kann die RDD-Ausgabe mit @ in HDFS speicher saveAsTextFile Methode. Diese Methode löst eine Ausnahme aus, wenn der Dateipfad bereits vorhanden ist. Ich habe einen Anwendungsfall, in dem ich das RDDS in einem bereits vorhandenen Dateipfad in ...

2 die antwort

Wie kann ein Offset im Spark Kafka-Direktstreaming manuell festgeschrieben werden?

Ich habe mich intensiv umgesehen, aber keine zufriedenstellende Antwort darauf gefunden. Vielleicht fehlt mir etwas. Bitte helfen Sie. Wir haben eine Spark-Streaming-Anwendung, die ein Kafka-Thema verwendet und die End-to-End-Verarbeitung ...

2 die antwort

Lesen mehrerer Dateien von S3 in Spark nach Datumszeitraum

BeschreibunIch habe eine Anwendung, die Daten an AWS Kinesis Firehose sendet und diese Daten in meinen S3-Bucket schreibt. Firehose verwendet das Format "JJJJ / MM / TT / HH", um die Dateien zu schreiben. Wie in diesem Beispiel S3 ...

TOP-Veröffentlichungen

8 die antwort

Wie kann eine Struktur in einem Spark-Datenrahmen reduziert werden?

Ich habe einen Datenrahmen mit der folgenden Struktur: |-- data: struct (nullable = true) | |-- id: long (nullable = true) | |-- keyNote: struct (nullable = true) | | |-- key: string (nullable = true) | | |-- note: string (nullable = true) | |-- ...

2 die antwort

Spark 2.0.0 Twitter-Streaming-Treiber ist nicht mehr verfügbar

Während der Migration von spark 1.6.2 zu spark 2.0.0 wurde das Paket org.apache.spark.streaming.twitter entfernt und Twitter-Streaming ist nicht mehr verfügbar sowie Dependency <dependency> ...

2 die antwort

Ist es in Apache Spark 2.0.0 möglich, eine Abfrage aus einer externen Datenbank abzurufen (anstatt die gesamte Tabelle abzurufen)?

Mit Pyspark: from pyspark.sql import SparkSession spark = SparkSession\ .builder\ .appName("spark play")\ .getOrCreate() df = spark.read\ .format("jdbc")\ .option("url", "jdbc:mysql://localhost:port")\ .option("dbtable", "schema.tablename")\ ...

0 die antwort

Spark 2.0 - "Tabelle oder Ansicht nicht gefunden" beim Abfragen von Hive [closed]

Wenn Hive über @ abgefragt wispark-shell 2.0: spark.sql("SELECT * FROM schemaname.tablename")It löst einen Fehler aus: 16/08/13 09:24:17 INFO execution.SparkSqlParser: Parsing command: SELECT * FROM schemaname.tablename ...

8 die antwort

java.lang.OutOfMemoryError: 100 Bytes Speicher können nicht erfasst werden, 0

Ich rufe Pyspark mit Spark 2.0 im lokalen Modus mit dem folgenden Befehl auf: pyspark --executor-memory 4g --driver-memory 4gDer Eingabedatenrahmen wird aus einer TSV-Datei gelesen und hat 580 K x 28 Spalten. Ich mache ein paar Operationen am ...

4 die antwort

Spark CrossValidatorModel Zugriff auf andere Modelle als das bestModel?

Ich verwende Spark 1.6.1: Zur Zeit benutze ich einen CrossValidator, um meine ML-Pipeline mit verschiedenen Parametern zu trainieren. Nach dem Trainingsprozess kann ich die Eigenschaft bestModel des CrossValidatorModel verwenden, um das Modell ...

6 die antwort

Was passiert - NoSuchMethodError: com.datastax.driver.core.ResultSet.fetchMoreResults

cassandra-connector-assembly-2.0.0 gebaut ausgithub project. mitScala 2.11.8, cassandra-driver-core-3.1.0 sc.cassandraTable("mykeyspace", "mytable").select("something").where("key=?", key).mapPartitions(par => { par.map({ row => ...