Wie extrahiere ich bestimmten Inhalt in einem Pandas-Datenframe mit einem regulären Ausdruck?
Betrachten Sie den folgenden Pandas-Datenrahmen:
In [114]:
df['movie_title'].head()
Out[114]:
0 Toy Story (1995)
1 GoldenEye (1995)
2 Four Rooms (1995)
3 Get Shorty (1995)
4 Copycat (1995)
...
Name: movie_title, dtype: object
Aktualisieren Ich möchte mit einem regulären Ausdruck nur die Titel der Filme extrahieren. Verwenden wir also den folgenden regulären Ausdruck:\b([^\d\W]+)\b
. Also habe ich folgendes probiert:
df_3['movie_title'] = df_3['movie_title'].str.extract('\b([^\d\W]+)\b')
df_3['movie_title']
Ich erhalte jedoch die folgenden Informationen:
0 NaN
1 NaN
2 NaN
3 NaN
4 NaN
5 NaN
6 NaN
7 NaN
8 NaN
Hast du eine Idee, wie du bestimmte Features aus Text in einem Pandas-Datenrahmen extrahieren kannst ?. Genauer gesagt, wie kann ich nur die Titel der Filme in einem völlig neuen Datenrahmen extrahieren? Beispielsweise sollte die gewünschte Ausgabe sein:
Out[114]:
0 Toy Story
1 GoldenEye
2 Four Rooms
3 Get Shorty
4 Copycat
...
Name: movie_title, dtype: object