Suchergebnisse für Anfrage "bigdata"
Würde Spark das RDD selbst deaktivieren, wenn er merkt, dass es nicht mehr verwendet wird?
Wir können eine RDD im Speicher und / oder auf der Festplatte beibehalten, wenn wir sie mehrmals verwenden möchten. Müssen wir sie jedoch später selbst deaktivieren oder führt Spark eine Art Garbage Collection durch und deaktiviert die RDD, wenn ...
Warum Kafka so schnell [geschlossen]
Wenn ich die gleiche Hardware habe, kann ich Kafka oder unsere aktuelle Lösung (ServiceMix / Camel) verwenden. Gibt es da einen Unterschied? Kann Kafka mit "größeren" Daten umgehen? Warum Es gibt einen Artikel darüber, wie schnell es sein ...
PySpark DataFrames - Aufzählung ohne Konvertierung in Pandas?
Ich habe ein sehr großes pyspark.sql.dataframe.DataFrame mit dem Namen df. Ich brauche eine Möglichkeit, um Datensätze aufzulisten. Daher kann ich auf Datensätze mit einem bestimmten Index zugreifen. (oder Datensatzgruppe mit Indexbereich ...
Extend Numpy Mask um n Zellen nach rechts für jeden schlechten Wert, effizient
Nehmen wir an, ich habe ein Array der Länge 30 mit 4 falschen Werten. Ich möchte eine Maske für diese fehlerhaften Werte erstellen, möchte aber, da ich Rolling Window-Funktionen verwende, auch eine feste Anzahl nachfolgender Indizes nach jedem ...
Spark Datentyp guesser UDAF
Wollte so etwas nehmenhttps: //github.com/fitzscott/AirQuality/blob/master/HiveDataTypeGuesser.jav [https://github.com/fitzscott/AirQuality/blob/master/HiveDataTypeGuesser.java] und erstellen Sie eine Hive-UDAF, um eine Aggregatfunktion zu ...
python - Verwenden von Pandastrukturen mit großem csv (iterate und chunksize)
Ich habe eine große CSV-Datei, ungefähr 600 MB mit 11 Millionen Zeilen, und ich möchte statistische Daten wie Pivots, Histogramme, Diagramme usw. erstellen. Offensichtlich versuche ich, sie nur normal zu lesen: df = ...
Wie wird die Datenblockgröße in Hadoop eingestellt? Ist es von Vorteil, es zu ändern?
Wenn wir die Datenblockgröße in Hadoop ändern können, teilen Sie mir bitte mit, wie das geht. Ist es vorteilhaft, die Blockgröße zu ändern? Wenn ja, lassen Sie es mich wissen, warum und wie? Wenn nein, warum und wie?
SparkR Job 100 Minuten Timeout
Ich habe ein etwas komplexes sparkR-Skript geschrieben und es mit spark-submit ausgeführt. Grundsätzlich wird eine große, auf Hive / Impala-Parkett basierende Tabelle zeilenweise gelesen und eine neue Parkettdatei mit der gleichen Anzahl von ...
Wie bekomme ich alle Tabellendefinitionen in einer Datenbank in Hive?
Ich suche nach allen Tabellendefinitionen in Hive. Ich weiß, dass ich für die Definition einer einzelnen Tabelle Folgendes verwenden kann: - describe <<table_name>> describe extended <<table_name>>Aber ich konnte keine Möglichkeit finden, alle ...
Fehler beim Aktivieren der Datenverschlüsselung mit dem lokalen Schlüssel MONGODB
Ich habe die Kommunikation in MongoDB erfolgreich verschlüsselt, aber wenn ich versuche, die Datenverschlüsselung zu aktivieren, erhalte ich Fehler. Ich benutze die Enterprise Edition von mongoDB mit Version 3.2.4. Ich erhalte die folgende ...