Wie mache ich Left Outer Join in Spark SQL?
Ich versuche, eine linke äußere Verknüpfung in spark (1.6.2) zu erstellen, aber das funktioniert nicht. Meine SQL-Abfrage sieht folgendermaßen aus:
sqlContext.sql("select t.type, t.uuid, p.uuid
from symptom_type t LEFT JOIN plugin p
ON t.uuid = p.uuid
where t.created_year = 2016
and p.created_year = 2016").show()
Das Ergebnis sieht so aus:
+--------------------+--------------------+--------------------+
| type| uuid| uuid|
+--------------------+--------------------+--------------------+
| tained|89759dcc-50c0-490...|89759dcc-50c0-490...|
| swapper|740cd0d4-53ee-438...|740cd0d4-53ee-438...|
Ich habe das gleiche Ergebnis entweder mit LEFT JOIN oder LEFT OUTER JOIN erhalten (die zweite UUID ist nicht null).
Ich würde erwarten, dass die zweite uuid-Spalte nur null ist. Wie mache ich einen Left Outer Join richtig?
=== Zusätzliche Informationen ==
Wenn ich DataFrame für Left Outer Join verwende, erhalte ich das richtige Ergebnis.
s = sqlCtx.sql('select * from symptom_type where created_year = 2016')
p = sqlCtx.sql('select * from plugin where created_year = 2016')
s.join(p, s.uuid == p.uuid, 'left_outer')
.select(s.type, s.uuid.alias('s_uuid'),
p.uuid.alias('p_uuid'), s.created_date, p.created_year, p.created_month).show()
Ich habe folgendes Ergebnis:
+-------------------+--------------------+-----------------+--------------------+------------+-------------+
| type| s_uuid| p_uuid| created_date|created_year|created_month|
+-------------------+--------------------+-----------------+--------------------+------------+-------------+
| tained|6d688688-96a4-341...| null|2016-01-28 00:27:...| null| null|
| tained|6d688688-96a4-341...| null|2016-01-28 00:27:...| null| null|
| tained|6d688688-96a4-341...| null|2016-01-28 00:27:...| null| null|
Vielen Dank