Wie extrahiere ich bestimmten Inhalt in einem Pandas-Datenframe mit einem regulären Ausdruck?

Betrachten Sie den folgenden Pandas-Datenrahmen:

In [114]:

df['movie_title'].head()

​
Out[114]:

0     Toy Story (1995)
1     GoldenEye (1995)
2    Four Rooms (1995)
3    Get Shorty (1995)
4       Copycat (1995)
...
Name: movie_title, dtype: object

Aktualisieren Ich möchte mit einem regulären Ausdruck nur die Titel der Filme extrahieren. Verwenden wir also den folgenden regulären Ausdruck:\b([^\d\W]+)\b. Also habe ich folgendes probiert:

df_3['movie_title'] = df_3['movie_title'].str.extract('\b([^\d\W]+)\b')
df_3['movie_title']

Ich erhalte jedoch die folgenden Informationen:

0       NaN
1       NaN
2       NaN
3       NaN
4       NaN
5       NaN
6       NaN
7       NaN
8       NaN

Hast du eine Idee, wie du bestimmte Features aus Text in einem Pandas-Datenrahmen extrahieren kannst ?. Genauer gesagt, wie kann ich nur die Titel der Filme in einem völlig neuen Datenrahmen extrahieren? Beispielsweise sollte die gewünschte Ausgabe sein:

Out[114]:

0     Toy Story
1     GoldenEye
2    Four Rooms
3    Get Shorty
4       Copycat
...
Name: movie_title, dtype: object

Antworten auf die Frage(4)

Ihre Antwort auf die Frage