Pandas: reformulando dados

Question

May 19, 2013, 07:03 PM

Pandas: reformulando dados

Eu tenho uma série de pandas que atualmente se parece com isso:

14    [Yellow, Pizza, Restaurants]
...
160920                  [Automotive, Auto Parts & Supplies]
160921       [Lighting Fixtures & Equipment, Home Services]
160922                 [Food, Pizza, Candy Stores]
160923           [Hair Removal, Nail Salons, Beauty & Spas]
160924           [Hair Removal, Nail Salons, Beauty & Spas]

E eu quero reformular radicalmente em um dataframe que se pareça com isso ...

      Yellow  Automotive  Pizza
14       1         0        1
…           
160920   0         1        0
160921   0         0        0
160922   0         0        1
160923   0         0        0
160924   0         0        0

ie. uma construção lógica observando em quais categorias cada observação (linha) se enquadra.

Eu sou capaz de escrever código baseado em loop para resolver o problema, mas dado o grande número de linhas que eu preciso manipular, isso vai ser muito lento.

Alguém conhece uma solução vetorizada para esse tipo de problema? Eu ficaria muito grato.

EDIT: existem 509 categorias, que eu tenho uma lista de.