Suchergebnisse für Anfrage "hadoop"

4 die antwort

Get Dateien, die in den letzten 5 Minuten in Hadoop mit Shell-Skript erstellt wurden

Ich habe Dateien in HDFS als: drwxrwx--- - root supergroup 0 2016-08-19 06:21 /tmp/logs/root/logs/application_1464962104018_1639064 drwxrwx--- - root supergroup 0 2016-08-19 ...

2 die antwort

Running Garn mit Funken funktioniert nicht mit Java 8

Ich habe einen Cluster mit 1 Master und 6 Slaves, der die vorgefertigte Version von Hadoop 2.6.0 und Spark 1.6.2 verwendet. Ich lief Hadoop MR und Spark-Jobs ohne Probleme mit OpenJDK 7 auf allen Knoten installiert. Als ich jedoch openjdk 7 auf ...

2 die antwort

So optimieren Sie den Scan von 1 großen Datei / Tabelle in Hive, um zu überprüfen, ob ein langer Punkt in einer Geometrieform enthalten ist

Ich versuche derzeit, jeden lat long Ping von einem Gerät mit seiner Postleitzahl zu verknüpfen. Ich habe Geräte-Ping-Daten für lange Zeiträume normalisiert und eine produktübergreifende / kartesische Produktverknüpfungstabelle erstellt, in ...

TOP-Veröffentlichungen

8 die antwort

java.lang.OutOfMemoryError: 100 Bytes Speicher können nicht erfasst werden, 0

Ich rufe Pyspark mit Spark 2.0 im lokalen Modus mit dem folgenden Befehl auf: pyspark --executor-memory 4g --driver-memory 4gDer Eingabedatenrahmen wird aus einer TSV-Datei gelesen und hat 580 K x 28 Spalten. Ich mache ein paar Operationen am ...

2 die antwort

Apache Spark Umgang mit verzerrten Daten

Ich habe zwei Tische, die ich zusammenfügen möchte. Einer von ihnen hat einen sehr schlechten Datenfehler. Dies führt dazu, dass mein Spark-Job nicht parallel ausgeführt wird, da ein Großteil der Arbeit auf einer Partition ausgeführt wird. Ich ...

0 die antwort

Spark 2.0 - "Tabelle oder Ansicht nicht gefunden" beim Abfragen von Hive [closed]

Wenn Hive über @ abgefragt wispark-shell 2.0: spark.sql("SELECT * FROM schemaname.tablename")It löst einen Fehler aus: 16/08/13 09:24:17 INFO execution.SparkSqlParser: Parsing command: SELECT * FROM schemaname.tablename ...

6 die antwort

Daten mit benutzerdefiniertem Trennzeichen in Hive laden

Ich versuche, eine interne (verwaltete) Tabelle in der Struktur zu erstellen, in der meine inkrementellen Protokolldaten gespeichert werden können. Die Tabelle sieht so aus: CREATE TABLE logs (foo INT, bar STRING, created_date TIMESTAMP) ROW ...

2 die antwort

Wie verteile ich meine Daten auf die Partitionen?

Bearbeite: Die Antwort hilft, aber ich habe meine Lösung beschrieben in: memoryOverhead Problem in Spark [https://gsamaras.wordpress.com/code/memoryoverhead-issue-in-spark/]. Ich habe eine RDD mit 202092-Partitionen, die einen von anderen ...

6 die antwort

Lesen Sie aus einer Hive-Tabelle und schreiben Sie mit spark sql @ darauf zurüc

Ich lese eine Hive-Tabelle mit Spark SQL und ordne sie einer Scala zu. val x = sqlContext.sql("select * from some_table")Dann bearbeite ich den Datenrahmen x und erstelle schließlich einen Datenrahmen y, der das genaue Schema wie die Tabelle ...

2 die antwort

Zur Begrenzung des großen RDD

Ich lese viele Bilder und würde gerne einen kleinen Teil davon für die Entwicklung bearbeiten. Als Ergebnis versuche ich zu verstehen, wieFunk [/questions/tagged/spark] undPytho [/questions/tagged/python] könnte das möglich machen: In [1]: d = ...