Suchergebnisse für Anfrage "bigdata"

6 die antwort

Verursacht eine flatMap in spark ein Shuffle?

Verhält sich flatMap in spark wie die Kartenfunktion und verursacht daher kein Mischen oder löst ein Mischen aus. Ich vermute, es verursacht Schlurfen. Kann das jemand bestätigen?

2 die antwort

Speichergrenzen in der Datentabelle: negative Längenvektoren sind nicht erlaubt

Ich habe eine Datentabelle mit mehreren Social-Media-Nutzern und deren Followern. Die ursprüngliche Datentabelle hat das folgende Format: X.USERID FOLLOWERS 1081 4053807021,2476584389,4713715543, ...So enthält jede Zeile einen Benutzer zusammen ...

4 die antwort

Warum hält Spark SQL die Unterstützung von Indizes für unwichtig?

Zitieren der Spark-DataFrames,Datasets und SQL-Handbuch [http://spark.apache.org/docs/latest/sql-programming-guide.html#unsupported-hive-functionality] : Eine Handvoll Hive-Optimierungen sind noch nicht in Spark enthalten. Einige davon (z. B. ...

TOP-Veröffentlichungen

2 die antwort

Confusion in Hashing von LSH verwendet

[/imgs/UYyNH.jpg] MatrixM ist die Signaturenmatrix, die durch Minhashing der tatsächlichen Daten erstellt wird und Dokumente als Spalten und Wörter als Zeilen enthält. Eine Spalte repräsentiert also ein Dokument. Jetzt heißt es, dass jeder ...

4 die antwort

Wie viele Partitionen erstellt Spark, wenn eine Datei aus dem S3-Bucket geladen wird?

Wenn die Datei standardmäßig aus HDFS geladen wird, erstellt spark eine Partition pro Block. Aber wie entscheidet der Funke über Partitionen, wenn eine Datei aus dem S3-Bucket geladen wird?

2 die antwort

So serialisiere ich ein Objekt in Hadoop (in HDFS)

Ich habe eine HashMap <String, ArrayList <Integer>>. Ich möchte mein HashMap-Objekt (hmap) in einen HDFS-Speicherort serialisieren und es später in Mapper and Reducers deserialisieren, um es zu verwenden. Um mein HashMap-Objekt unter HDFS zu ...

6 die antwort

Was sollte beachtet werden, bevor man sich für hbase entscheidet?

ch bin sehr neu im Bereich Big Dat Wir haben einen Vorschlag vom Team erhalten, dass wir für eine hohe Leistung hbase anstelle von RDBMS verwenden sollten. Wir haben keine Ahnung, was berücksichtigt werden sollte / muss, bevor RDMS auf hbase ...

6 die antwort

So überprüfen Sie die Spark-Version [closed]

Ich möchte die Spark-Version in cdh 5.7.0 überprüfen. Ich habe im Internet gesucht, aber nicht verstehen können. Bitte helfen Sie. Vielen Dan

6 die antwort

Daten mit benutzerdefiniertem Trennzeichen in Hive laden

Ich versuche, eine interne (verwaltete) Tabelle in der Struktur zu erstellen, in der meine inkrementellen Protokolldaten gespeichert werden können. Die Tabelle sieht so aus: CREATE TABLE logs (foo INT, bar STRING, created_date TIMESTAMP) ROW ...

2 die antwort

Scala unveränderliche Karte langsam

Ich habe einen Code, wenn ich eine Karte erstelle: val map = gtfLineArr(8).split(";").map(_ split "\"").collect { case Array(k, v) => (k, v) }.toMapDann benutze ich diese Map, um mein Objekt zu erstellen: case class MyObject(val attribute1: ...