Wie erstelle ich SparkSession mit Hive-Unterstützung (schlägt fehl, wenn "Hive-Klassen nicht gefunden werden")?
Ich erhalte diese Fehlermeldung, wenn ich versuche, diesen Code auszuführen.
import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.SparkSession;
public class App
{
public static void main(String[] args) throws Exception {
String warehouseLocation = "file:" + System.getProperty("user.dir") + "spark-warehouse";
SparkSession spark = SparkSession
.builder().master("local")
.appName("Java Spark Hive Example")
.config("spark.sql.warehouse.dir", warehouseLocation).enableHiveSupport()
.getOrCreate();
String path = "/home/cloudera/Downloads/NetBeansProjects/sparksql1/src/test/Employee.json";
spark.sql("CREATE TABLE IF NOT EXISTS src (key INT, value STRING)");
spark.sql("LOAD DATA LOCAL INPATH '"+path+"' INTO TABLE src");
//load from HDFS
Dataset<Row> df = spark.read().json(path);
df.registerTempTable("temp_table");
spark.sql("create table TEST.employee as select * from temp_table");
df.printSchema();
df.show();
}
}
Ausgabe
Exception im Thread "main" java.lang.IllegalArgumentException: SparkSession kann nicht mit Hive-Unterstützung instanziiert werden, da Hive-Klassen nicht gefunden werden. at org.apache.spark.sql.SparkSession $ Builder.enableHiveSupport (SparkSession.scala: 778) at com.training.hivetest.App.main (App.java:21)
Wie kann es gelöst werden?