Suchergebnisse für Anfrage "bigdata"

4 die antwort

Würde Spark das RDD selbst deaktivieren, wenn er merkt, dass es nicht mehr verwendet wird?

Wir können eine RDD im Speicher und / oder auf der Festplatte beibehalten, wenn wir sie mehrmals verwenden möchten. Müssen wir sie jedoch später selbst deaktivieren oder führt Spark eine Art Garbage Collection durch und deaktiviert die RDD, wenn ...

2 die antwort

Warum Kafka so schnell [geschlossen]

Wenn ich die gleiche Hardware habe, kann ich Kafka oder unsere aktuelle Lösung (ServiceMix / Camel) verwenden. Gibt es da einen Unterschied? Kann Kafka mit "größeren" Daten umgehen? Warum Es gibt einen Artikel darüber, wie schnell es sein ...

10 die antwort

PySpark DataFrames - Aufzählung ohne Konvertierung in Pandas?

Ich habe ein sehr großes pyspark.sql.dataframe.DataFrame mit dem Namen df. Ich brauche eine Möglichkeit, um Datensätze aufzulisten. Daher kann ich auf Datensätze mit einem bestimmten Index zugreifen. (oder Datensatzgruppe mit Indexbereich ...

TOP-Veröffentlichungen

14 die antwort

Extend Numpy Mask um n Zellen nach rechts für jeden schlechten Wert, effizient

Nehmen wir an, ich habe ein Array der Länge 30 mit 4 falschen Werten. Ich möchte eine Maske für diese fehlerhaften Werte erstellen, möchte aber, da ich Rolling Window-Funktionen verwende, auch eine feste Anzahl nachfolgender Indizes nach jedem ...

2 die antwort

Spark Datentyp guesser UDAF

Wollte so etwas nehmenhttps: //github.com/fitzscott/AirQuality/blob/master/HiveDataTypeGuesser.jav [https://github.com/fitzscott/AirQuality/blob/master/HiveDataTypeGuesser.java] und erstellen Sie eine Hive-UDAF, um eine Aggregatfunktion zu ...

6 die antwort

python - Verwenden von Pandastrukturen mit großem csv (iterate und chunksize)

Ich habe eine große CSV-Datei, ungefähr 600 MB mit 11 Millionen Zeilen, und ich möchte statistische Daten wie Pivots, Histogramme, Diagramme usw. erstellen. Offensichtlich versuche ich, sie nur normal zu lesen: df = ...

6 die antwort

Wie wird die Datenblockgröße in Hadoop eingestellt? Ist es von Vorteil, es zu ändern?

Wenn wir die Datenblockgröße in Hadoop ändern können, teilen Sie mir bitte mit, wie das geht. Ist es vorteilhaft, die Blockgröße zu ändern? Wenn ja, lassen Sie es mich wissen, warum und wie? Wenn nein, warum und wie?

2 die antwort

SparkR Job 100 Minuten Timeout

Ich habe ein etwas komplexes sparkR-Skript geschrieben und es mit spark-submit ausgeführt. Grundsätzlich wird eine große, auf Hive / Impala-Parkett basierende Tabelle zeilenweise gelesen und eine neue Parkettdatei mit der gleichen Anzahl von ...

4 die antwort

Wie bekomme ich alle Tabellendefinitionen in einer Datenbank in Hive?

Ich suche nach allen Tabellendefinitionen in Hive. Ich weiß, dass ich für die Definition einer einzelnen Tabelle Folgendes verwenden kann: - describe <<table_name>> describe extended <<table_name>>Aber ich konnte keine Möglichkeit finden, alle ...

2 die antwort

Fehler beim Aktivieren der Datenverschlüsselung mit dem lokalen Schlüssel MONGODB

Ich habe die Kommunikation in MongoDB erfolgreich verschlüsselt, aber wenn ich versuche, die Datenverschlüsselung zu aktivieren, erhalte ich Fehler. Ich benutze die Enterprise Edition von mongoDB mit Version 3.2.4. Ich erhalte die folgende ...