Suchergebnisse für Anfrage "bigdata"
Hadoop 2 IOException nur beim Versuch, vermeintliche Cache-Dateien zu öffnen
Ich habe kürzlich auf Hadoop 2.2 aktualisiert (mit diesem TutorialHier).Meine Hauptberufsklasse sieht so aus und löst eine IOException aus:
Warum hält Spark SQL die Unterstützung von Indizes für unwichtig?
Zitieren der Spark-DataFrames,Datasets und SQL-Handbuch [http://spark.apache.org/docs/latest/sql-programming-guide.html#unsupported-hive-functionality] : Eine Handvoll Hive-Optimierungen sind noch nicht in Spark enthalten. Einige davon (z. B. ...
Unausgeglichener Faktor von KMeans?
Edit: Die Antwort auf diese Frage wird ausführlich diskutiert in:Sum in Spark schlecht gegangen [https://stackoverflow.com/questions/39627773/sum-in-spark-gone-bad] ImCompute Kosten von ...
Warum löscht der OneHotEncoder von Spark standardmäßig die letzte Kategorie?
Ich möchte verstehen, warum der OneHotEncoder des Spark standardmäßig die letzte Kategorie gelöscht hat. Beispielsweise >>> fd = spark.createDataFrame( [(1.0, "a"), (1.5, "a"), (10.0, "b"), (3.2, "c")], ["x","c"]) >>> ss = ...
Finden Sie Lücken in großen Ereignisströmen?
ch habe ungefähr 1 Million Ereignisse in einer PostgreSQL-Datenbank, die dieses Format habe id | stream_id | timestamp ----------+-----------------+----------------- 1 | 7 | .... 2 | 8 | ....s gibt ungefähr 50.000 eindeutige Stream Ich muss ...
Wie kann ich mit Apache Spark den exakten Median berechnen?
DiesSeit [https://spark.apache.org/docs/0.7.0/api/core/spark/api/java/JavaDoubleRDD.html] enthält einige Statistikfunktionen (Mittelwert, stdev, Varianz usw.), aber keinen Median. Wie kann ich den exakten Median berechnen? Vielen Dan
Wie wird die Datenblockgröße in Hadoop eingestellt? Ist es von Vorteil, es zu ändern?
Wenn wir die Datenblockgröße in Hadoop ändern können, teilen Sie mir bitte mit, wie das geht. Ist es vorteilhaft, die Blockgröße zu ändern? Wenn ja, lassen Sie es mich wissen, warum und wie? Wenn nein, warum und wie?
Kafka Thema pro Produzent
Sagen wir, ich habe mehrere Geräte. Jedes Gerät verfügt über unterschiedliche Sensortypen. Jetzt möchte ich die Daten von jedem Gerät für jeden Sensor an kafka senden. Aber ich bin verwirrt über die Kafka-Themen. Zur Verarbeitung dieser ...
JSON-Array in Pig laden
Ich habe eine JSON-Datei mit dem folgenden Format [ { "id": 2, "createdBy": 0, "status": 0, "utcTime": "Oct 14, 2014 4:49:47 PM", "placeName": "21/F, Cunningham Main Rd, Sampangi Rama NagarBengaluruKarnatakaIndia", "longitude": 77.5983817, ...
Bereite meine BigData mit Spark via Python vor
Meine 100 m große, quantisierte Daten: (1424411938', [3885, 7898]) (3333333333', [3885, 7898])Erwünschtes Ergebnis (3885, [3333333333, 1424411938]) (7898, [3333333333, 1424411938]) Also, was ich will, ist, die Daten so zu transformieren, dass ...