Suchergebnisse für Anfrage "apache-spark-sql"

0 die antwort

Spark 2.0 - "Tabelle oder Ansicht nicht gefunden" beim Abfragen von Hive [closed]

Wenn Hive über @ abgefragt wispark-shell 2.0: spark.sql("SELECT * FROM schemaname.tablename")It löst einen Fehler aus: 16/08/13 09:24:17 INFO execution.SparkSqlParser: Parsing command: SELECT * FROM schemaname.tablename ...

1 die antwort

Spark SQL kann das Schreiben von Parkettdaten mit einer großen Anzahl von Shards nicht abschließen.

Ich versuche, Apache Spark SQL zu verwenden, um JSON-Protokolldaten in S3 auch in Parquet-Dateien in S3 zu speichern. Mein Code ist im Grunde: import org.apache.spark._ val sqlContext = sql.SQLContext(sc) val data ...

2 die antwort

EntityTooLarge-Fehler beim Hochladen einer 5G-Datei auf Amazon S3

Amazon S3 Dateigrößenbeschränkung soll laut diesem @ 5T betragAnkündigun [http://aws.amazon.com/blogs/aws/amazon-s3-object-size-limit/], aber ich erhalte die folgende Fehlermeldung beim Hochladen einer ...

TOP-Veröffentlichungen

2 die antwort

Wie wird ein konstanter Wert in der UDF von Spark SQL (DataFrame) verwendet?

Ich habe einen Datenrahmen, der @ enthätimestamp. Um nach Zeit (Minute, Stunde oder Tag) zu aggregieren, habe ich Folgendes versucht: val toSegment = udf((timestamp: String) => { val asLong = timestamp.toLong asLong - asLong % 3600000 // period ...

2 die antwort

Was ist der bevorzugte Weg, um SQL-Injections in Spark-SQL (auf Hive) zu vermeiden

Nehme ein SchemaRDD anrdd mit einer registrierten Tabellecustomer. Sie möchten Datensätze anhand einer Benutzereingabe herausfiltern. Eine Idee, wie Sie dies tun können, ist die folgende: rdd.sqlContext.sql(s"SELECT * FROM customer WHERE ...

2 die antwort

Ist die Auswahl der geschachtelten Spark DataFrame-Struktur eingeschränkt?

Ich habe eine JSON-Datei mit einigen Daten. Ich kann daraus einen DataFrame erstellen. Das Schema für einen bestimmten Teil davon, an dem ich interessiert bin, sieht folgendermaßen aus: val json: DataFrame = ...

2 die antwort

Issue with UDF auf einer Vektorspalte in PySpark DataFrame

ch habe Probleme mit der Verwendung einer UDF für eine Vektorspalte in PySpark, die hier dargestellt werden kan from pyspark import SparkContext from pyspark.sql import Row from pyspark.sql.types import DoubleType from pyspark.sql.functions ...

2 die antwort

Voraussetzungen für die Konvertierung von Spark-Datenrahmen in Pandas / R-Datenrahmen

Ich starte Spark auf Hadoops YARN. Wie funktioniert diese Konvertierung? Findet ein collect () vor der Konvertierung statt? Auch muss ich Python und R auf jedem Slave-Knoten installieren, damit die Konvertierung funktioniert? Ich habe Mühe, ...

2 die antwort

Wie registriere ich eine Funktion in sqlContext UDF in scala?

Ich habe eine Methode namens getAge (Zeitstempel: Long) und möchte diese als SQL-Funktion registrieren. Ich hab sqlContext.udf.register("getAge",getAge)Aber es sagt mir, ich brauche Argumente oder benutze danach _, ich habe versucht, _ zu ...

2 die antwort

Wie filtere ich Zeilen basierend darauf, ob sich ein Spaltenwert in einem Satz von Zeichenfolgen in einem Spark-DataFrame befindet?

Gibt es eine elegantere Methode zum Filtern anhand von Werten in einem String-Satz? def myFilter(actions: Set[String], myDF: DataFrame): DataFrame = { val containsAction = udf((action: String) => { actions.contains(action) ...