Suchergebnisse für Anfrage "apache-spark"

2 die antwort

Wrapping eine Java-Funktion in Pyspark

Ich versuche eine benutzerdefinierte Aggregatfunktion zu erstellen, die ich von Python aus aufrufen kann. Ich habe versucht, der Antwort auf @ zu ...

2 die antwort

Was ist ein Glom ?. Wie unterscheidet es sich von mapPartitions?

Ich bin auf das @ gestoßglom() -Methode auf RDD. Gemäß der Dokumentation Return ein RDD erstellt durch Zusammenführen aller Elemente in jeder Partition in ein Array Tutglom die Daten über die Partitionen mischen oder werden nur ...

10 die antwort

Jar zu Standalone Pyspark hinzufügen

Ich starte ein Pyspark-Programm: $ export SPARK_HOME= $ export PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.9-src.zip $ python Und der PY-Code: from pyspark import SparkContext, ...

TOP-Veröffentlichungen

4 die antwort

VectorAssembler nur an DenseVector ausgeben?

Die Funktion von VectorAssembler ist sehr ärgerlich. Momentan transformiere ich eine Reihe von Spalten in eine einzelne Spalte von Vektoren und wende dann die StandardScaler-Funktion an, um die Skalierung auf die enthaltenen Features anzuwenden. ...

2 die antwort

So klassifizieren Sie Bilder mit Spark und Caffe

ch verwende Caffe, um Bilder zu klassifizieren. Kann ich MAC OS X, Pyhton, verwende Im Moment weiß ich, wie ich mit Caffe mit Spark Python eine Liste von Bildern klassifizieren kann, aber wenn ich es schneller machen möchte, möchte ich ...

2 die antwort

So stellen Sie fest, ob das Objekt ein gültiges Schlüssel-Wert-Paar in PySpark ist

Wie verstehe ich, dass die Daten im Format "Schlüssel: Wert" vorliegen, wenn ich eine Festplatte besitze? Gibt es eine Möglichkeit, das Gleiche zu finden? So etwas wie type (object) gibt Auskunft über den Typ eines Objekts. Ich habe ...

4 die antwort

Summenwerte von PairRDD

Ich habe eine RDD vom Typ: dataset :org.apache.spark.rdd.RDD[(String, Double)] = MapPartitionRDD[26]Was entspricht(Pedro, 0.0833), (Hello, 0.001828) ... Ich möchte alles zusammenfassen, den Wert,0.0833+0.001828.. aber ich kann keine richtige ...

2 die antwort

Holen Sie sich eine java.lang.LinkageError: ClassCastException, wenn Sie spark sql hivesql auf yarn @ verwende

Dies ist der Treiber, den ich in das Garn-Cluster hochlade: package com.baidu.spark.forhivetest import org.apache.spark.sql._ import org.apache.spark.sql.types._ import org.apache.spark.sql.hive._ import org.apache.spark.SparkContext object ...

2 die antwort

Vergleichen der Merkmale von Testdaten mit den Zugdaten nach Auswahl der Merkmale in spark

Ich arbeite an Scala. Ich habe eine große Frage, ChiSqSelector scheint die Dimension erfolgreich zu reduzieren, aber ich kann nicht identifizieren, welche Features reduziert wurden, was geblieben war. Woher weiß ich, welche Funktionen reduziert ...

2 die antwort

Umwandlung eines Strings in einen doppelten Datenrahmen

Ich habe einen Datenrahmen mit @ erstelconcat was einen String erzeugt. import sqlContext.implicits._ val df = sc.parallelize(Seq((1.0, 2.0), (3.0, 4.0))).toDF("k", "v") df.registerTempTable("df") val dfConcat = df.select(concat($"k", lit(","), ...