Suchergebnisse für Anfrage "apache-spark"
Wrapping eine Java-Funktion in Pyspark
Ich versuche eine benutzerdefinierte Aggregatfunktion zu erstellen, die ich von Python aus aufrufen kann. Ich habe versucht, der Antwort auf @ zu ...
Was ist ein Glom ?. Wie unterscheidet es sich von mapPartitions?
Ich bin auf das @ gestoßglom() -Methode auf RDD. Gemäß der Dokumentation Return ein RDD erstellt durch Zusammenführen aller Elemente in jeder Partition in ein Array Tutglom die Daten über die Partitionen mischen oder werden nur ...
Jar zu Standalone Pyspark hinzufügen
Ich starte ein Pyspark-Programm: $ export SPARK_HOME= $ export PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.9-src.zip $ python Und der PY-Code: from pyspark import SparkContext, ...
VectorAssembler nur an DenseVector ausgeben?
Die Funktion von VectorAssembler ist sehr ärgerlich. Momentan transformiere ich eine Reihe von Spalten in eine einzelne Spalte von Vektoren und wende dann die StandardScaler-Funktion an, um die Skalierung auf die enthaltenen Features anzuwenden. ...
So klassifizieren Sie Bilder mit Spark und Caffe
ch verwende Caffe, um Bilder zu klassifizieren. Kann ich MAC OS X, Pyhton, verwende Im Moment weiß ich, wie ich mit Caffe mit Spark Python eine Liste von Bildern klassifizieren kann, aber wenn ich es schneller machen möchte, möchte ich ...
So stellen Sie fest, ob das Objekt ein gültiges Schlüssel-Wert-Paar in PySpark ist
Wie verstehe ich, dass die Daten im Format "Schlüssel: Wert" vorliegen, wenn ich eine Festplatte besitze? Gibt es eine Möglichkeit, das Gleiche zu finden? So etwas wie type (object) gibt Auskunft über den Typ eines Objekts. Ich habe ...
Summenwerte von PairRDD
Ich habe eine RDD vom Typ: dataset :org.apache.spark.rdd.RDD[(String, Double)] = MapPartitionRDD[26]Was entspricht(Pedro, 0.0833), (Hello, 0.001828) ... Ich möchte alles zusammenfassen, den Wert,0.0833+0.001828.. aber ich kann keine richtige ...
Holen Sie sich eine java.lang.LinkageError: ClassCastException, wenn Sie spark sql hivesql auf yarn @ verwende
Dies ist der Treiber, den ich in das Garn-Cluster hochlade: package com.baidu.spark.forhivetest import org.apache.spark.sql._ import org.apache.spark.sql.types._ import org.apache.spark.sql.hive._ import org.apache.spark.SparkContext object ...
Vergleichen der Merkmale von Testdaten mit den Zugdaten nach Auswahl der Merkmale in spark
Ich arbeite an Scala. Ich habe eine große Frage, ChiSqSelector scheint die Dimension erfolgreich zu reduzieren, aber ich kann nicht identifizieren, welche Features reduziert wurden, was geblieben war. Woher weiß ich, welche Funktionen reduziert ...
Umwandlung eines Strings in einen doppelten Datenrahmen
Ich habe einen Datenrahmen mit @ erstelconcat was einen String erzeugt. import sqlContext.implicits._ val df = sc.parallelize(Seq((1.0, 2.0), (3.0, 4.0))).toDF("k", "v") df.registerTempTable("df") val dfConcat = df.select(concat($"k", lit(","), ...