Suchergebnisse für Anfrage "apache-spark"

4 die antwort

Explizite Sortierung in kartesischer Transformation in Scala Spark

Ich verwende die kartesische Transformation in Spark Scala. Wenn meine Eingabe aus 4 Elementen besteht (könnten Zahlen / Zeichen / Tupel sein), sagen Sie var myRDD=sc.parallelize(Array("e1","e2","e3","e4")) myRDD.cartesian (myRDD) würde alle ...

2 die antwort

Wie kann man in PySpark effizient nach Werten sortieren?

Ich möchte meine K, V-Tupel nach V sortieren, d. H. Nach dem Wert. Ich weiß dasTakeOrdered ist gut dafür, wenn du weißt, wie viele du brauchst: b = sc.parallelize([('t',3),('b',4),('c',1)])UsingTakeOrdered: b.takeOrdered(3,lambda atuple: ...

2 die antwort

Spark 1.5.1, Cassandra Connector 1.5.0-M2, Cassandra 2.1, Scala 2.10, NoSuchMethodError-Guavenabhängigkeit

Neu in der Spark-Umgebung (und ziemlich neu für Maven), daher habe ich Probleme damit, die Abhängigkeiten, die ich benötige, richtig zu senden. Es sieht so aus, als hätte Spark 1.5.1 eine Guava-14.0.1-Abhängigkeit, die es zu verwenden versucht, ...

TOP-Veröffentlichungen

4 die antwort

Wie aktualisiere ich Spark auf eine neuere Version?

Ich habe eine virtuelle Maschine, die @ hSpark 1.3 drauf aber ich möchte es auf @ upgradSpark 1.5 hauptsächlich aufgrund bestimmter unterstützter Funktionalitäten, die nicht in 1.3 enthalten waren. Ist es möglich, dass ich das @ upgraden kanSpark ...

4 die antwort

Spark Vereinigung mehrerer RDDs

In meinem Schweinecode mache ich das: all_combined = Union relation1, relation2, relation3, relation4, relation5, relation 6.Ich möchte dasselbe mit spark machen. Allerdings sehe ich leider, dass ich es paarweise weiter machen muss: first = ...

6 die antwort

Spark schnellste Weg zur Erstellung von RDD von Numpy Arrays

Meine Spark-Anwendung verwendet RDDs von Numpy-Arrays. Im Moment lese ich meine Daten aus AWS S3 und es wird als einfache Textdatei dargestellt, in der jede Zeile ein Vektor ist und jedes Element durch ein Leerzeichen getrennt ist. Beispiel: 1 2 ...

4 die antwort

Unterstützt SparkSQL Unterabfragen?

Ich führe diese Abfrage in der Spark-Shell aus, aber es gibt mir einen Fehler. sqlContext.sql( "select sal from samplecsv where sal < (select MAX(sal) from samplecsv)" ).collect().foreach(println)Error java.lang.RuntimeException: [1.47] ...

4 die antwort

Konnte keine Anführer für Set finden ([TOPICNNAME, 0])) Wenn wir in Apache Saprk sind

Wir verwenden Apache Spark 1.5.1 und kafka_2.10-0.8.2.1 sowie die Kafka DirectStream-API, um mit Spark Daten von Kafka abzurufen. Wir haben die Themen in Kafka mit den folgenden Einstellungen erstellt ReplicationFactor: 1 und Replica: 1 Wenn ...

2 die antwort

Wer kann in Spark eine klare Erklärung für `joinByKey` geben?

Ich lerne Funken, aber ich kann diese Funktion nicht verstehencombineByKey. >>> data = sc.parallelize([("A",1),("A",2),("B",1),("B",2),("C",1)] ) >>> data.combineByKey(lambda v : str(v)+"_", lambda c, v : c+"@"+str(v), lambda c1, c2 : ...

4 die antwort

Anzahl der Nicht-NaN-Einträge in jeder Spalte des Spark-Datenrahmens mit Pyspark

Ich habe einen sehr großen Datensatz, der in Hive geladen wird. Es besteht aus etwa 1,9 Millionen Zeilen und 1450 Spalten. Ich muss die "Abdeckung" jeder Spalte bestimmen, dh den Bruchteil der Zeilen, die für jede Spalte Nicht-NaN-Werte ...