Suchergebnisse für Anfrage "bigdata"

Wir können eine RDD im Speicher und / oder auf der Festplatte beibehalten, wenn wir sie mehrmals verwenden möchten. Müssen wir sie jedoch später selbst deaktivieren oder führt Spark eine Art Garbage Collection durch und deaktiviert die RDD, wenn ...

apache-kafka

2 die antwort

Warum Kafka so schnell [geschlossen]

Wenn ich die gleiche Hardware habe, kann ich Kafka oder unsere aktuelle Lösung (ServiceMix / Camel) verwenden. Gibt es da einen Unterschied? Kann Kafka mit "größeren" Daten umgehen? Warum Es gibt einen Artikel darüber, wie schnell es sein ...

apache-spark python rdd pyspark

10 die antwort

PySpark DataFrames - Aufzählung ohne Konvertierung in Pandas?

Ich habe ein sehr großes pyspark.sql.dataframe.DataFrame mit dem Namen df. Ich brauche eine Möglichkeit, um Datensätze aufzulisten. Daher kann ich auf Datensätze mit einem bestimmten Index zugreifen. (oder Datensatzgruppe mit Indexbereich ...

TOP-Veröffentlichungen

The In-Depth Guide on Video Streaming Protocols [for non-tech founders]

Wie erstellt man eine Krypto-Tauschbörse?

numpy python

14 die antwort

Extend Numpy Mask um n Zellen nach rechts für jeden schlechten Wert, effizient

Nehmen wir an, ich habe ein Array der Länge 30 mit 4 falschen Werten. Ich möchte eine Maske für diese fehlerhaften Werte erstellen, möchte aber, da ich Rolling Window-Funktionen verwende, auch eine feste Anzahl nachfolgender Indizes nach jedem ...

apache-spark machine-learning apache-spark-mllib hive

2 die antwort

Spark Datentyp guesser UDAF

Wollte so etwas nehmenhttps: //github.com/fitzscott/AirQuality/blob/master/HiveDataTypeGuesser.jav [https://github.com/fitzscott/AirQuality/blob/master/HiveDataTypeGuesser.java] und erstellen Sie eine Hive-UDAF, um eine Aggregatfunktion zu ...

pandas dataframe csv python

6 die antwort

python - Verwenden von Pandastrukturen mit großem csv (iterate und chunksize)

Ich habe eine große CSV-Datei, ungefähr 600 MB mit 11 Millionen Zeilen, und ich möchte statistische Daten wie Pivots, Histogramme, Diagramme usw. erstellen. Offensichtlich versuche ich, sie nur normal zu lesen: df = ...

hdfs cloudera hortonworks-data-platform hadoop

6 die antwort

Wie wird die Datenblockgröße in Hadoop eingestellt? Ist es von Vorteil, es zu ändern?

Wenn wir die Datenblockgröße in Hadoop ändern können, teilen Sie mir bitte mit, wie das geht. Ist es vorteilhaft, die Blockgröße zu ändern? Wenn ja, lassen Sie es mich wissen, warum und wie? Wenn nein, warum und wie?

sparkr apache-spark hadoop

2 die antwort

SparkR Job 100 Minuten Timeout

Ich habe ein etwas komplexes sparkR-Skript geschrieben und es mit spark-submit ausgeführt. Grundsätzlich wird eine große, auf Hive / Impala-Parkett basierende Tabelle zeilenweise gelesen und eine neue Parkettdatei mit der gleichen Anzahl von ...

hadoop hive

4 die antwort

Wie bekomme ich alle Tabellendefinitionen in einer Datenbank in Hive?

Ich suche nach allen Tabellendefinitionen in Hive. Ich weiß, dass ich für die Definition einer einzelnen Tabelle Folgendes verwenden kann: - describe <<table_name>> describe extended <<table_name>>Aber ich konnte keine Möglichkeit finden, alle ...

security mongodb ssl encryption

2 die antwort

Fehler beim Aktivieren der Datenverschlüsselung mit dem lokalen Schlüssel MONGODB

Ich habe die Kommunikation in MongoDB erfolgreich verschlüsselt, aber wenn ich versuche, die Datenverschlüsselung zu aktivieren, erhalte ich Fehler. Ich benutze die Enterprise Edition von mongoDB mit Version 3.2.4. Ich erhalte die folgende ...

Seite 7 von 10

5 678 9

Suchergebnisse für Anfrage "bigdata"

Würde Spark das RDD selbst deaktivieren, wenn er merkt, dass es nicht mehr verwendet wird?

Warum Kafka so schnell [geschlossen]

PySpark DataFrames - Aufzählung ohne Konvertierung in Pandas?

Beliebte Schlagwörter

TOP-Veröffentlichungen

Extend Numpy Mask um n Zellen nach rechts für jeden schlechten Wert, effizient

Spark Datentyp guesser UDAF

python - Verwenden von Pandastrukturen mit großem csv (iterate und chunksize)

Wie wird die Datenblockgröße in Hadoop eingestellt? Ist es von Vorteil, es zu ändern?

SparkR Job 100 Minuten Timeout

Wie bekomme ich alle Tabellendefinitionen in einer Datenbank in Hive?

Fehler beim Aktivieren der Datenverschlüsselung mit dem lokalen Schlüssel MONGODB

Du bist sehr aktiv! Es ist großartig!

Suchergebnisse für Anfrage "bigdata"

Beliebte Schlagwörter

TOP-Veröffentlichungen