Znajdowanie i pobieranie obrazów w Dump Wikipedii
Próbuję znaleźć wyczerpującą listę wszystkich obrazów na wikipedii, którą mogę następnie odfiltrować do domeny publicznej. Pobrałem stąd zrzuty SQL:
http://dumps.wikimedia.org/enwiki/latest/
I przestudiowałem schemat DB:
Myślę, że rozumiem, ale kiedy wybieram przykładowy obraz ze strony wikipedii, nie mogę go znaleźć w żadnym miejscu na wysypiskach. Na przykład:
http://en.wikipedia.org/wiki/File:Carrizo_2a.JPG
Zrobiłem grep na zrzucie „image”, „imagelinks” i „page” szukając „Carrizo_2a.JPG” i nie znaleziono go.
Czy te zrzuty nie są kompletne? Czy źle rozumiem strukturę? Czy jest lepszy sposób, aby to zrobić?
Aby przeskoczyć do przodu o jeden krok: po odfiltrowaniu mojej listy i chcę pobrać zbiorczy zestaw zdjęć (tysiące) zobaczyłem kilka wzmianek, że muszę to zrobić z lustra witryny, aby zapobiec przeładowaniu wikipedia / wikimedia . Jeśli ma to również jakieś wskazówki, byłoby to pomocne.