Suchergebnisse für Anfrage "hadoop"
Lesen Sie aus einer Hive-Tabelle und schreiben Sie mit spark sql @ darauf zurüc
Ich lese eine Hive-Tabelle mit Spark SQL und ordne sie einer Scala zu. val x = sqlContext.sql("select * from some_table")Dann bearbeite ich den Datenrahmen x und erstelle schließlich einen Datenrahmen y, der das genaue Schema wie die Tabelle ...
So überprüfen Sie die Spark-Version [closed]
Ich möchte die Spark-Version in cdh 5.7.0 überprüfen. Ich habe im Internet gesucht, aber nicht verstehen können. Bitte helfen Sie. Vielen Dan
Spark: Speichern von RDD in einem bereits vorhandenen Pfad in HDFS
Ich kann die RDD-Ausgabe mit @ in HDFS speicher saveAsTextFile Methode. Diese Methode löst eine Ausnahme aus, wenn der Dateipfad bereits vorhanden ist. Ich habe einen Anwendungsfall, in dem ich das RDDS in einem bereits vorhandenen Dateipfad in ...
Apache Spark Umgang mit verzerrten Daten
Ich habe zwei Tische, die ich zusammenfügen möchte. Einer von ihnen hat einen sehr schlechten Datenfehler. Dies führt dazu, dass mein Spark-Job nicht parallel ausgeführt wird, da ein Großteil der Arbeit auf einer Partition ausgeführt wird. Ich ...
java.lang.OutOfMemoryError: 100 Bytes Speicher können nicht erfasst werden, 0
Ich rufe Pyspark mit Spark 2.0 im lokalen Modus mit dem folgenden Befehl auf: pyspark --executor-memory 4g --driver-memory 4gDer Eingabedatenrahmen wird aus einer TSV-Datei gelesen und hat 580 K x 28 Spalten. Ich mache ein paar Operationen am ...
Hadoop-Abfrage bezüglich der setJarByClass-Methode der Jobklasse
In der Hadoop-API-Dokumentation ist es angegeben Da setJarByClass public void setJarByClass(Class<?> cls) Set the Jar by finding where a given class came from.Was genau bedeutet diese Erklärung? erstellt es eine JAR-Datei aus dem in der obigen ...
Daten mit benutzerdefiniertem Trennzeichen in Hive laden
Ich versuche, eine interne (verwaltete) Tabelle in der Struktur zu erstellen, in der meine inkrementellen Protokolldaten gespeichert werden können. Die Tabelle sieht so aus: CREATE TABLE logs (foo INT, bar STRING, created_date TIMESTAMP) ROW ...
Hadoop 0.20.2 Eclipse-Plugin funktioniert nicht vollständig - kann nicht auf Hadoop ausgeführt werden
Ich habe gerade Hadoop 0.20.2 unter Cygwin unter Windows 7 mit Eclipse Helios (3.6) installiert. Hadoop ist jetzt vollständig gestartet und ich versuche, eine Testanwendung in einem neu erstellten MapReduce-Testprojekt in Eclipse auszuführen. ...
Wie verteile ich meine Daten auf die Partitionen?
Bearbeite: Die Antwort hilft, aber ich habe meine Lösung beschrieben in: memoryOverhead Problem in Spark [https://gsamaras.wordpress.com/code/memoryoverhead-issue-in-spark/]. Ich habe eine RDD mit 202092-Partitionen, die einen von anderen ...
Running Garn mit Funken funktioniert nicht mit Java 8
Ich habe einen Cluster mit 1 Master und 6 Slaves, der die vorgefertigte Version von Hadoop 2.6.0 und Spark 1.6.2 verwendet. Ich lief Hadoop MR und Spark-Jobs ohne Probleme mit OpenJDK 7 auf allen Knoten installiert. Als ich jedoch openjdk 7 auf ...