Suchergebnisse für Anfrage "apache-spark"

2 die antwort

Reading Huge MongoDB Sammlung von Spark mit Hilfe von Worker

ch möchte eine riesige MongoDB-Sammlung von Spark lesen, eine permanente RDD erstellen und weitere Datenanalysen durchführe Kann ich auf irgendeine Weise die Daten von MongoDB schneller lesen? Habe es mit dem Ansatz von MongoDB Java + Casbah @ ...

2 die antwort

Wie implementiere ich eine Like-Bedingung in SparkSQL?

Wie schreibe ich eine SQL-Anweisung, um das Ziel wie folgt zu erreichen: SELECT * FROM table t WHERE t.a LIKE '%'||t.b||'%';Vielen Dank

4 die antwort

Wie partitioniere ich mit Spark?

Gegeben, dass die HashPartitioner-Dokumentation sagt: [HashPartitioner] implementiert eine Hash-basierte Partitionierung mit Javas Object.hashCode. Sag ich möchte partitionierenDeviceData von seinerkind. case class DeviceData(kind: String, ...

TOP-Veröffentlichungen

2 die antwort

Spark Leistung für Scala vs Python

Ich bevorzuge Python gegenüber Scala. Da Spark jedoch ursprünglich in Scala geschrieben wurde, hatte ich aus offensichtlichen Gründen damit gerechnet, dass mein Code in Scala schneller ausgeführt wird als in der Python-Version. Mit dieser ...

8 die antwort

Geburtsdatum in Spark Dataframe API in Alter umwandeln

Das scheint einfach, aber ich konnte die Antwort nicht finden. Ich versuche, eine Spalte mit dem Geburtsdatum im folgenden Datumsformat in das Datumsformat in der Spark Dataframe-API zu konvertieren und dann das entsprechende Alter zu berechnen. ...

4 die antwort

Wo sucht spark nach Textdateien?

Ich dachte, dass das Laden von Textdateien nur von Workern / innerhalb des Clusters erfolgt (Sie müssen nur sicherstellen, dass alle Worker auf denselben Pfad zugreifen können, indem Sie entweder diese Textdatei auf allen Knoten verfügbar machen ...

2 die antwort

Wie erhalte ich Daten von einer bestimmten Partition in Spark RDD?

Ich möchte auf Daten von einer bestimmten Partition in Spark RDD zugreifen. Ich kann die Adresse einer Partition wie folgt erhalten: myRDD.partitions(0)Aber ich möchte Daten von @ erhaltmyRDD.partitions(0) partition. Ich habe die offizielle ...

2 die antwort

Zwischenergebnisse in der Spark ML-Pipeline zwischenspeichern

In letzter Zeit plane ich, meinen eigenständigen Python-ML-Code zu migrieren, um zu funken. Die ML-Pipeline inspark.ml ist sehr praktisch, mit einer optimierten API zum Verketten von Algorithmusstufen und zur Suche ...

2 die antwort

Funktioniert Spark-Prädikat-Pushdown mit JDBC?

GemäßDie [https://databricks.com/blog/2015/02/17/introducing-dataframes-in-spark-for-large-scale-data-science.html] Catalyst wendet logische Optimierungen an, z. B. das Pushdown von Vergleichselementen. Das Optimierungsprogramm kann ...

2 die antwort

Was sind Worker, Executor und Cores im Spark Standalone-Cluster?

Ich leseCluster Mode Overview [http://spark.apache.org/docs/latest/cluster-overview.html] und ich kann immer noch nicht die verschiedenen Prozesse in der @ verstehSpark Standalone Cluster und die Parallelität. Ist Worker ein JVM-Prozess oder ...