Suchergebnisse für Anfrage "apache-spark"
Spark: Speichern von RDD in einem bereits vorhandenen Pfad in HDFS
Ich kann die RDD-Ausgabe mit @ in HDFS speicher saveAsTextFile Methode. Diese Methode löst eine Ausnahme aus, wenn der Dateipfad bereits vorhanden ist. Ich habe einen Anwendungsfall, in dem ich das RDDS in einem bereits vorhandenen Dateipfad in ...
Wie kann ein Offset im Spark Kafka-Direktstreaming manuell festgeschrieben werden?
Ich habe mich intensiv umgesehen, aber keine zufriedenstellende Antwort darauf gefunden. Vielleicht fehlt mir etwas. Bitte helfen Sie. Wir haben eine Spark-Streaming-Anwendung, die ein Kafka-Thema verwendet und die End-to-End-Verarbeitung ...
Lesen mehrerer Dateien von S3 in Spark nach Datumszeitraum
BeschreibunIch habe eine Anwendung, die Daten an AWS Kinesis Firehose sendet und diese Daten in meinen S3-Bucket schreibt. Firehose verwendet das Format "JJJJ / MM / TT / HH", um die Dateien zu schreiben. Wie in diesem Beispiel S3 ...
Wie kann eine Struktur in einem Spark-Datenrahmen reduziert werden?
Ich habe einen Datenrahmen mit der folgenden Struktur: |-- data: struct (nullable = true) | |-- id: long (nullable = true) | |-- keyNote: struct (nullable = true) | | |-- key: string (nullable = true) | | |-- note: string (nullable = true) | |-- ...
Spark 2.0.0 Twitter-Streaming-Treiber ist nicht mehr verfügbar
Während der Migration von spark 1.6.2 zu spark 2.0.0 wurde das Paket org.apache.spark.streaming.twitter entfernt und Twitter-Streaming ist nicht mehr verfügbar sowie Dependency <dependency> ...
Ist es in Apache Spark 2.0.0 möglich, eine Abfrage aus einer externen Datenbank abzurufen (anstatt die gesamte Tabelle abzurufen)?
Mit Pyspark: from pyspark.sql import SparkSession spark = SparkSession\ .builder\ .appName("spark play")\ .getOrCreate() df = spark.read\ .format("jdbc")\ .option("url", "jdbc:mysql://localhost:port")\ .option("dbtable", "schema.tablename")\ ...
Spark 2.0 - "Tabelle oder Ansicht nicht gefunden" beim Abfragen von Hive [closed]
Wenn Hive über @ abgefragt wispark-shell 2.0: spark.sql("SELECT * FROM schemaname.tablename")It löst einen Fehler aus: 16/08/13 09:24:17 INFO execution.SparkSqlParser: Parsing command: SELECT * FROM schemaname.tablename ...
java.lang.OutOfMemoryError: 100 Bytes Speicher können nicht erfasst werden, 0
Ich rufe Pyspark mit Spark 2.0 im lokalen Modus mit dem folgenden Befehl auf: pyspark --executor-memory 4g --driver-memory 4gDer Eingabedatenrahmen wird aus einer TSV-Datei gelesen und hat 580 K x 28 Spalten. Ich mache ein paar Operationen am ...
Spark CrossValidatorModel Zugriff auf andere Modelle als das bestModel?
Ich verwende Spark 1.6.1: Zur Zeit benutze ich einen CrossValidator, um meine ML-Pipeline mit verschiedenen Parametern zu trainieren. Nach dem Trainingsprozess kann ich die Eigenschaft bestModel des CrossValidatorModel verwenden, um das Modell ...
Was passiert - NoSuchMethodError: com.datastax.driver.core.ResultSet.fetchMoreResults
cassandra-connector-assembly-2.0.0 gebaut ausgithub project. mitScala 2.11.8, cassandra-driver-core-3.1.0 sc.cassandraTable("mykeyspace", "mytable").select("something").where("key=?", key).mapPartitions(par => { par.map({ row => ...