PySpark: StructField (…,…, False) всегда возвращает «nullable = true» вместо «nullable = false»

Я новичок в PySpark и сталкиваюсь со странной проблемой. Я пытаюсь установить для некоторого столбца ненулевое значение при загрузке набора данных CSV. Я могу воспроизвести мой случай с очень маленьким набором данных (test.csv):

col1,col2,col3
11,12,13
21,22,23
31,32,33
41,42,43
51,,53

В строке 5, столбце 2 есть нулевое значение, и я не хочу помещать эту строку в свой DF. Я устанавливаю все поля как необнуляемые (nullable=false) но я получаю схему со всеми тремя столбцами, имеющимиnullable=true, Это происходит, даже если я установил все три столбца как необнуляемые! Я использую последнюю доступную версию Spark 2.0.1.

Вот код:

from pyspark.sql import SparkSession
from pyspark.sql.functions import *
from pyspark.sql.types import *

spark = SparkSession \
    .builder \
    .appName("Python Spark SQL basic example") \
    .config("spark.some.config.option", "some-value") \
    .getOrCreate()

struct = StructType([   StructField("col1", StringType(), False), \
                        StructField("col2", StringType(), False), \
                        StructField("col3", StringType(), False) \
                    ])

df = spark.read.load("test.csv", schema=struct, format="csv", header="true")

df.printSchema() возвращает:

root
 |-- col1: string (nullable = true)
 |-- col2: string (nullable = true)
 |-- col3: string (nullable = true)

а такжеdf.show() возвращает:

+----+----+----+
|col1|col2|col3|
+----+----+----+
|  11|  12|  13|
|  21|  22|  23|
|  31|  32|  33|
|  41|  42|  43|
|  51|null|  53|
+----+----+----+

пока жду этого

root
 |-- col1: string (nullable = false)
 |-- col2: string (nullable = false)
 |-- col3: string (nullable = false)

+----+----+----+
|col1|col2|col3|
+----+----+----+
|  11|  12|  13|
|  21|  22|  23|
|  31|  32|  33|
|  41|  42|  43|
+----+----+----+

Ответы на вопрос(1)

Ваш ответ на вопрос