Como analisar / extrair dados de um artigo marcado no mediawiki via python
Marcação do Mediawiki de origem
No momento, estou usando vários regexes para "analisar" os dados da marcação do mediawiki em listas / dicionários, para que os elementos do artigo possam ser usados.
Esse não é o melhor método, pois o número de casos que precisam ser feitos é grande.
Como alguém poderia analisar a marcação mediawiki de um artigo em uma variedade de objetos python, de modo que os dados possam ser usados?
Exemplo sendo:
Extraia todas as manchetes para um dicionário, codificando-o com sua seção.Pegue todos os links interwiki e coloque-os em uma lista (eu seiisso pode ser feito a partir da API, mas eu prefiro ter apenas uma chamada de API para
reduzir o uso da largura de banda).Extraia todos os nomes de imagens e misture-os com suas seções
Uma variedade de expressões regulares pode alcançar o acima, mas eu estou achando o número que eu tenho que fazer bastante grande.
Aqui está oespecificação não oficial mediawiki (Eu não acho o oficial delesespecificação como útil).