Suchergebnisse für Anfrage "hadoop"

6 die antwort

Lesen Sie aus einer Hive-Tabelle und schreiben Sie mit spark sql @ darauf zurüc

Ich lese eine Hive-Tabelle mit Spark SQL und ordne sie einer Scala zu. val x = sqlContext.sql("select * from some_table")Dann bearbeite ich den Datenrahmen x und erstelle schließlich einen Datenrahmen y, der das genaue Schema wie die Tabelle ...

6 die antwort

So überprüfen Sie die Spark-Version [closed]

Ich möchte die Spark-Version in cdh 5.7.0 überprüfen. Ich habe im Internet gesucht, aber nicht verstehen können. Bitte helfen Sie. Vielen Dan

2 die antwort

Spark: Speichern von RDD in einem bereits vorhandenen Pfad in HDFS

Ich kann die RDD-Ausgabe mit @ in HDFS speicher saveAsTextFile Methode. Diese Methode löst eine Ausnahme aus, wenn der Dateipfad bereits vorhanden ist. Ich habe einen Anwendungsfall, in dem ich das RDDS in einem bereits vorhandenen Dateipfad in ...

TOP-Veröffentlichungen

2 die antwort

Apache Spark Umgang mit verzerrten Daten

Ich habe zwei Tische, die ich zusammenfügen möchte. Einer von ihnen hat einen sehr schlechten Datenfehler. Dies führt dazu, dass mein Spark-Job nicht parallel ausgeführt wird, da ein Großteil der Arbeit auf einer Partition ausgeführt wird. Ich ...

8 die antwort

java.lang.OutOfMemoryError: 100 Bytes Speicher können nicht erfasst werden, 0

Ich rufe Pyspark mit Spark 2.0 im lokalen Modus mit dem folgenden Befehl auf: pyspark --executor-memory 4g --driver-memory 4gDer Eingabedatenrahmen wird aus einer TSV-Datei gelesen und hat 580 K x 28 Spalten. Ich mache ein paar Operationen am ...

6 die antwort

Hadoop-Abfrage bezüglich der setJarByClass-Methode der Jobklasse

In der Hadoop-API-Dokumentation ist es angegeben Da setJarByClass public void setJarByClass(Class<?> cls) Set the Jar by finding where a given class came from.Was genau bedeutet diese Erklärung? erstellt es eine JAR-Datei aus dem in der obigen ...

6 die antwort

Daten mit benutzerdefiniertem Trennzeichen in Hive laden

Ich versuche, eine interne (verwaltete) Tabelle in der Struktur zu erstellen, in der meine inkrementellen Protokolldaten gespeichert werden können. Die Tabelle sieht so aus: CREATE TABLE logs (foo INT, bar STRING, created_date TIMESTAMP) ROW ...

6 die antwort

Hadoop 0.20.2 Eclipse-Plugin funktioniert nicht vollständig - kann nicht auf Hadoop ausgeführt werden

Ich habe gerade Hadoop 0.20.2 unter Cygwin unter Windows 7 mit Eclipse Helios (3.6) installiert. Hadoop ist jetzt vollständig gestartet und ich versuche, eine Testanwendung in einem neu erstellten MapReduce-Testprojekt in Eclipse auszuführen. ...

2 die antwort

Wie verteile ich meine Daten auf die Partitionen?

Bearbeite: Die Antwort hilft, aber ich habe meine Lösung beschrieben in: memoryOverhead Problem in Spark [https://gsamaras.wordpress.com/code/memoryoverhead-issue-in-spark/]. Ich habe eine RDD mit 202092-Partitionen, die einen von anderen ...

2 die antwort

Running Garn mit Funken funktioniert nicht mit Java 8

Ich habe einen Cluster mit 1 Master und 6 Slaves, der die vorgefertigte Version von Hadoop 2.6.0 und Spark 1.6.2 verwendet. Ich lief Hadoop MR und Spark-Jobs ohne Probleme mit OpenJDK 7 auf allen Knoten installiert. Als ich jedoch openjdk 7 auf ...