Suchergebnisse für Anfrage "apache-spark"
Google Cloud Dataproc-Konfigurationsprobleme
Bei der Modellierung von Spark LDA-Themen sind verschiedene Probleme aufgetreten (hauptsächlich Fehler bei der Aufhebung der Zuordnung in scheinbar zufälligen Intervallen), die meines Erachtens hauptsächlich mit einer unzureichenden ...
Spark Auftragsfehler: YarnAllocator: Beendigungsstatus: -100. Diagnose: Container auf einem * verlorenen * Knoten @ freigegeb
Ich führe einen Job in AWS-EMR 4.1, Spark 1.5 mit der folgenden Konfiguration aus: spark-submit --deploy-mode cluster --master yarn-cluster --driver-memory 200g --driver-cores 30 --executor-memory 70g --executor-cores 8 --num-executors 90 --conf ...
Wie reiche ich einen Job über die REST-API ein?
Ich verwende Datastax Enterprise 4.8.3. Ich versuche, eine Quarz-basierte Anwendung zu implementieren, um Spark-Jobs aus der Ferne zu übermitteln. Während meiner Recherche bin ich auf folgende Links gestoßen: Apache Spark Hidden REST ...
Ressourcenzuweisung für Spark-Jobs auf Mesos verstehen
Ich arbeite an einem Projekt in Spark und bin kürzlich von Spark Standalone auf Mesos für die Clusterverwaltung umgestiegen. Ich bin jetzt verwirrt darüber, wie ich Ressourcen zuweisen soll, wenn ich einen Job unter dem neuen ...
Warum schlägt der Scala-Compiler fehl, wenn im Paket org.apache.spark auf das Objekt SparkConf im Paket spark nicht zugegriffen werden kann?
Ich kann nicht auf das @ zugreifSparkConf im Paket. Aber ich habe das @ schon importieimport org.apache.spark.SparkConf. Mein Code ist: import org.apache.spark.SparkContext import org.apache.spark.SparkContext._ import org.apache.spark.SparkConf ...
Operate auf Nachbarelementen in RDD in Spark
ie ich eine Sammlung habe: List(1, 3,-1, 0, 2, -4, 6) Es ist einfach zu sortieren: List(-4, -1, 0, 1, 2, 3, 6) Dann kann ich eine neue Sammlung erstellen, indem ich 6 - 3, 3 - 2, 2 - 1, 1 - 0 usw. wie folgt berechne: for(i <- 0 to list.length ...
Wie ändere ich die Namen von DataFrame-Spalten in Pyspark?
Ich komme aus Pandas Hintergrund und bin es gewohnt, Daten aus CSV-Dateien in einen Datenrahmen zu lesen und dann einfach die Spaltennamen mit dem einfachen Befehl in etwas Nützliches zu ändern: df.columns = new_column_name_listDas Gleiche gilt ...
Wie sieht die Datei hive-site.xml aus, die in $ SPARK_HOME enthalten ist?
Ich bin ein Anfänger im Bienenstock, etwas ist passiert (kann keinen Tisch finden), als ich einen Funkenjob beginne und Daten aus dem Bienenstock lese. Ich setze hive-site.xml nicht in $ SPARK_HOME / conf? Senden Sie den Funkenauftrag Befehl ist ...
Auf alle Felder der Spark-Datenrahmenzeile die gleiche Funktion anwenden
Ich habe Datenrahmen, in denen ich ungefähr 1000s (variable) Spalten habe. Ich möchte alle Werte in Großbuchstaben schreiben. Hier ist der Ansatz, an den ich gedacht habe, kannst du vorschlagen, ob dies der beste Weg ist. Zeile nehmenFinde das ...
Spark: Schwellenwert und Genauigkeit des Regressionsmodells
Ich habe einen logistischen Regressionsmodus, in dem ich den Schwellenwert explizit auf 0,5 festgelegt habe. model.setThreshold(0.5)Ich trainiere das Modell und dann möchte ich grundlegende Statistiken erhalten - Präzision, Rückruf usw. Das ...