Suchergebnisse für Anfrage "bigdata"

2 die antwort

Hadoop 2 IOException nur beim Versuch, vermeintliche Cache-Dateien zu öffnen

Ich habe kürzlich auf Hadoop 2.2 aktualisiert (mit diesem TutorialHier).Meine Hauptberufsklasse sieht so aus und löst eine IOException aus:

4 die antwort

Warum hält Spark SQL die Unterstützung von Indizes für unwichtig?

Zitieren der Spark-DataFrames,Datasets und SQL-Handbuch [http://spark.apache.org/docs/latest/sql-programming-guide.html#unsupported-hive-functionality] : Eine Handvoll Hive-Optimierungen sind noch nicht in Spark enthalten. Einige davon (z. B. ...

2 die antwort

Unausgeglichener Faktor von KMeans?

Edit: Die Antwort auf diese Frage wird ausführlich diskutiert in:Sum in Spark schlecht gegangen [https://stackoverflow.com/questions/39627773/sum-in-spark-gone-bad] ImCompute Kosten von ...

TOP-Veröffentlichungen

2 die antwort

Warum löscht der OneHotEncoder von Spark standardmäßig die letzte Kategorie?

Ich möchte verstehen, warum der OneHotEncoder des Spark standardmäßig die letzte Kategorie gelöscht hat. Beispielsweise >>> fd = spark.createDataFrame( [(1.0, "a"), (1.5, "a"), (10.0, "b"), (3.2, "c")], ["x","c"]) >>> ss = ...

4 die antwort

Finden Sie Lücken in großen Ereignisströmen?

ch habe ungefähr 1 Million Ereignisse in einer PostgreSQL-Datenbank, die dieses Format habe id | stream_id | timestamp ----------+-----------------+----------------- 1 | 7 | .... 2 | 8 | ....s gibt ungefähr 50.000 eindeutige Stream Ich muss ...

4 die antwort

Wie kann ich mit Apache Spark den exakten Median berechnen?

DiesSeit [https://spark.apache.org/docs/0.7.0/api/core/spark/api/java/JavaDoubleRDD.html] enthält einige Statistikfunktionen (Mittelwert, stdev, Varianz usw.), aber keinen Median. Wie kann ich den exakten Median berechnen? Vielen Dan

6 die antwort

Wie wird die Datenblockgröße in Hadoop eingestellt? Ist es von Vorteil, es zu ändern?

Wenn wir die Datenblockgröße in Hadoop ändern können, teilen Sie mir bitte mit, wie das geht. Ist es vorteilhaft, die Blockgröße zu ändern? Wenn ja, lassen Sie es mich wissen, warum und wie? Wenn nein, warum und wie?

4 die antwort

Kafka Thema pro Produzent

Sagen wir, ich habe mehrere Geräte. Jedes Gerät verfügt über unterschiedliche Sensortypen. Jetzt möchte ich die Daten von jedem Gerät für jeden Sensor an kafka senden. Aber ich bin verwirrt über die Kafka-Themen. Zur Verarbeitung dieser ...

1 die antwort

JSON-Array in Pig laden

Ich habe eine JSON-Datei mit dem folgenden Format [ { "id": 2, "createdBy": 0, "status": 0, "utcTime": "Oct 14, 2014 4:49:47 PM", "placeName": "21/F, Cunningham Main Rd, Sampangi Rama NagarBengaluruKarnatakaIndia", "longitude": 77.5983817, ...

2 die antwort

Bereite meine BigData mit Spark via Python vor

Meine 100 m große, quantisierte Daten: (1424411938', [3885, 7898]) (3333333333', [3885, 7898])Erwünschtes Ergebnis (3885, [3333333333, 1424411938]) (7898, [3333333333, 1424411938]) Also, was ich will, ist, die Daten so zu transformieren, dass ...