Suchergebnisse für Anfrage "apache-spark"

Ich verwende die kartesische Transformation in Spark Scala. Wenn meine Eingabe aus 4 Elementen besteht (könnten Zahlen / Zeichen / Tupel sein), sagen Sie var myRDD=sc.parallelize(Array("e1","e2","e3","e4")) myRDD.cartesian (myRDD) würde alle ...

lambda sorting python

2 die antwort

Wie kann man in PySpark effizient nach Werten sortieren?

Ich möchte meine K, V-Tupel nach V sortieren, d. H. Nach dem Wert. Ich weiß dasTakeOrdered ist gut dafür, wenn du weißt, wie viele du brauchst: b = sc.parallelize([('t',3),('b',4),('c',1)])UsingTakeOrdered: b.takeOrdered(3,lambda atuple: ...

java scala maven spark-cassandra-connector

2 die antwort

Spark 1.5.1, Cassandra Connector 1.5.0-M2, Cassandra 2.1, Scala 2.10, NoSuchMethodError-Guavenabhängigkeit

Neu in der Spark-Umgebung (und ziemlich neu für Maven), daher habe ich Probleme damit, die Abhängigkeiten, die ich benötige, richtig zu senden. Es sieht so aus, als hätte Spark 1.5.1 eine Guava-14.0.1-Abhängigkeit, die es zu verwenden versucht, ...

TOP-Veröffentlichungen

The In-Depth Guide on Video Streaming Protocols [for non-tech founders]

Wie erstellt man eine Krypto-Tauschbörse?

4 die antwort

Wie aktualisiere ich Spark auf eine neuere Version?

Ich habe eine virtuelle Maschine, die @ hSpark 1.3 drauf aber ich möchte es auf @ upgradSpark 1.5 hauptsächlich aufgrund bestimmter unterstützter Funktionalitäten, die nicht in 1.3 enthalten waren. Ist es möglich, dass ich das @ upgraden kanSpark ...

rdd python pyspark

4 die antwort

Spark Vereinigung mehrerer RDDs

In meinem Schweinecode mache ich das: all_combined = Union relation1, relation2, relation3, relation4, relation5, relation 6.Ich möchte dasselbe mit spark machen. Allerdings sehe ich leider, dass ich es paarweise weiter machen muss: first = ...

pyspark rdd numpy python

6 die antwort

Spark schnellste Weg zur Erstellung von RDD von Numpy Arrays

Meine Spark-Anwendung verwendet RDDs von Numpy-Arrays. Im Moment lese ich meine Daten aus AWS S3 und es wird als einfache Textdatei dargestellt, in der jede Zeile ein Vektor ist und jedes Element durch ein Leerzeichen getrennt ist. Beispiel: 1 2 ...

subquery apache-spark-sql sql

4 die antwort

Unterstützt SparkSQL Unterabfragen?

Ich führe diese Abfrage in der Spark-Shell aus, aber es gibt mir einen Fehler. sqlContext.sql( "select sal from samplecsv where sal < (select MAX(sal) from samplecsv)" ).collect().foreach(println)Error java.lang.RuntimeException: [1.47] ...

apache-kafka spark-streaming

4 die antwort

Konnte keine Anführer für Set finden ([TOPICNNAME, 0])) Wenn wir in Apache Saprk sind

Wir verwenden Apache Spark 1.5.1 und kafka_2.10-0.8.2.1 sowie die Kafka DirectStream-API, um mit Spark Daten von Kafka abzurufen. Wir haben die Themen in Kafka mit den folgenden Einstellungen erstellt ReplicationFactor: 1 und Replica: 1 Wenn ...

python

2 die antwort

Wer kann in Spark eine klare Erklärung für `joinByKey` geben?

Ich lerne Funken, aber ich kann diese Funktion nicht verstehencombineByKey. >>> data = sc.parallelize([("A",1),("A",2),("B",1),("B",2),("C",1)] ) >>> data.combineByKey(lambda v : str(v)+"_", lambda c, v : c+"@"+str(v), lambda c1, c2 : ...

dataframe apache-spark-sql pyspark python

4 die antwort

Anzahl der Nicht-NaN-Einträge in jeder Spalte des Spark-Datenrahmens mit Pyspark

Ich habe einen sehr großen Datensatz, der in Hive geladen wird. Es besteht aus etwa 1,9 Millionen Zeilen und 1450 Spalten. Ich muss die "Abdeckung" jeder Spalte bestimmen, dh den Bruchteil der Zeilen, die für jede Spalte Nicht-NaN-Werte ...

Seite 57 von 113

55 565758 59

Suchergebnisse für Anfrage "apache-spark"

Explizite Sortierung in kartesischer Transformation in Scala Spark

Wie kann man in PySpark effizient nach Werten sortieren?

Spark 1.5.1, Cassandra Connector 1.5.0-M2, Cassandra 2.1, Scala 2.10, NoSuchMethodError-Guavenabhängigkeit

Beliebte Schlagwörter

TOP-Veröffentlichungen

Wie aktualisiere ich Spark auf eine neuere Version?

Spark Vereinigung mehrerer RDDs

Spark schnellste Weg zur Erstellung von RDD von Numpy Arrays

Unterstützt SparkSQL Unterabfragen?

Konnte keine Anführer für Set finden ([TOPICNNAME, 0])) Wenn wir in Apache Saprk sind

Wer kann in Spark eine klare Erklärung für `joinByKey` geben?

Anzahl der Nicht-NaN-Einträge in jeder Spalte des Spark-Datenrahmens mit Pyspark

Du bist sehr aktiv! Es ist großartig!

Suchergebnisse für Anfrage "apache-spark"

Beliebte Schlagwörter

TOP-Veröffentlichungen