Suchergebnisse für Anfrage "apache-spark"
Explizite Sortierung in kartesischer Transformation in Scala Spark
Ich verwende die kartesische Transformation in Spark Scala. Wenn meine Eingabe aus 4 Elementen besteht (könnten Zahlen / Zeichen / Tupel sein), sagen Sie var myRDD=sc.parallelize(Array("e1","e2","e3","e4")) myRDD.cartesian (myRDD) würde alle ...
Wie kann man in PySpark effizient nach Werten sortieren?
Ich möchte meine K, V-Tupel nach V sortieren, d. H. Nach dem Wert. Ich weiß dasTakeOrdered ist gut dafür, wenn du weißt, wie viele du brauchst: b = sc.parallelize([('t',3),('b',4),('c',1)])UsingTakeOrdered: b.takeOrdered(3,lambda atuple: ...
Spark 1.5.1, Cassandra Connector 1.5.0-M2, Cassandra 2.1, Scala 2.10, NoSuchMethodError-Guavenabhängigkeit
Neu in der Spark-Umgebung (und ziemlich neu für Maven), daher habe ich Probleme damit, die Abhängigkeiten, die ich benötige, richtig zu senden. Es sieht so aus, als hätte Spark 1.5.1 eine Guava-14.0.1-Abhängigkeit, die es zu verwenden versucht, ...
Wie aktualisiere ich Spark auf eine neuere Version?
Ich habe eine virtuelle Maschine, die @ hSpark 1.3 drauf aber ich möchte es auf @ upgradSpark 1.5 hauptsächlich aufgrund bestimmter unterstützter Funktionalitäten, die nicht in 1.3 enthalten waren. Ist es möglich, dass ich das @ upgraden kanSpark ...
Spark Vereinigung mehrerer RDDs
In meinem Schweinecode mache ich das: all_combined = Union relation1, relation2, relation3, relation4, relation5, relation 6.Ich möchte dasselbe mit spark machen. Allerdings sehe ich leider, dass ich es paarweise weiter machen muss: first = ...
Spark schnellste Weg zur Erstellung von RDD von Numpy Arrays
Meine Spark-Anwendung verwendet RDDs von Numpy-Arrays. Im Moment lese ich meine Daten aus AWS S3 und es wird als einfache Textdatei dargestellt, in der jede Zeile ein Vektor ist und jedes Element durch ein Leerzeichen getrennt ist. Beispiel: 1 2 ...
Unterstützt SparkSQL Unterabfragen?
Ich führe diese Abfrage in der Spark-Shell aus, aber es gibt mir einen Fehler. sqlContext.sql( "select sal from samplecsv where sal < (select MAX(sal) from samplecsv)" ).collect().foreach(println)Error java.lang.RuntimeException: [1.47] ...
Konnte keine Anführer für Set finden ([TOPICNNAME, 0])) Wenn wir in Apache Saprk sind
Wir verwenden Apache Spark 1.5.1 und kafka_2.10-0.8.2.1 sowie die Kafka DirectStream-API, um mit Spark Daten von Kafka abzurufen. Wir haben die Themen in Kafka mit den folgenden Einstellungen erstellt ReplicationFactor: 1 und Replica: 1 Wenn ...
Wer kann in Spark eine klare Erklärung für `joinByKey` geben?
Ich lerne Funken, aber ich kann diese Funktion nicht verstehencombineByKey. >>> data = sc.parallelize([("A",1),("A",2),("B",1),("B",2),("C",1)] ) >>> data.combineByKey(lambda v : str(v)+"_", lambda c, v : c+"@"+str(v), lambda c1, c2 : ...
Anzahl der Nicht-NaN-Einträge in jeder Spalte des Spark-Datenrahmens mit Pyspark
Ich habe einen sehr großen Datensatz, der in Hive geladen wird. Es besteht aus etwa 1,9 Millionen Zeilen und 1450 Spalten. Ich muss die "Abdeckung" jeder Spalte bestimmen, dh den Bruchteil der Zeilen, die für jede Spalte Nicht-NaN-Werte ...