Wikipedie:Stáhnutí databáze
Wikipedie nabízí kopie veškerého dostupného obsahu uživatelům, kteří ji potřebují. Tyto kopie databází můžou být využity pro mirrorování Wikipedie, osobní užití, zálohy informací, použití offline anebo pro dotazy na databázi. Veškerý textový obsah je licencován pod licencí Creative Commons Attribution-ShareAlike 3.0 License (CC-BY-SA) a většina zároveň i pod licencí GNU Free Documentation License (GFDL). Pro další informace o autorském právu na Wikipedii vizte WP:Autorské právo.
Offline čtečky Wikipedie
editovatNěkteré z mnoha cest, jak číst Wikipedii offline.
- XOWA (#XOWA)
- WikiTaxi #WikiTaxi
- WikiReader
- Wikipedia on rockbox #Wikiviewer for Rockbox
- Wikipedia Featured Articles as a Printed Book http://www.brandnew.uk.com/wikipedia-as-a-printed-book/
- WikiFilter #WikiFilter
- Wiki as E-Book #E-book
- Selected Wikipedia articles as a PDF, OpenDocument, etc. Nápověda:Knihy
- Selected Wikipedia articles as a printed book Help:Books/Printed books
- Okawix http://sourceforge.net/p/okawix/code/HEAD/tree/
- offline-wikipedia #Offline wikipedia reader
- offline-wiki http://offline-wiki.googlecode.com/git/app.html
- Kiwix
- iPodLinux
- BzReader #BzReader and MzReader (for Windows)
- aarddict #Aard Dictionary
Kde získám...
editovatČeskojazyčnou Wikipedii
editovat- Dumpy kteréhokoliv projektu Nadace Wikimedia: https://dumps.wikimedia.org a Internet Archive
- Dumpy českojazyčné Wikipedie v SQL a XML: https://dumps.wikimedia.org/cswiki
- pages-articles.xml.bz2 - pouze aktuální verze článků, žádné diskusní a uživatelské stránky, toto je pravděpodobně to, co chcete (okolo 550 MB v komprimované variantě)
- pages-meta-current.xml.bz2 - pouze aktuální verze všech stránek (včetně diskusí), okolo 670 MB v komprimované verzi
- abstract.xml.gz - úvody článků
- all-titles-in-ns0.gz - pouze názvy článků (s přesměrováními)
- SQL zálohy pro většinu tabulek MediaWiki jsou také dostupné
- pages-meta-history.xml.bz2 - Obsahuje všechny revize všech stránek, rozbalí se na přes 300 GB velký textový soubor, stahujte pouze, pokud víte, že tento soubor užijete
- Pro stažení pouze části databáze v XML formátu, třeba jedné kategorie nebo seznamu článků, využijte Special:Export
- Frontend Wikipedie: MediaWiki ([1])
- Databázový backend: MySQL
Nakládání s komprimovanými soubory
editovatKomprimované dumpy jsou značně zmenšené, po rozbalení zaberou velké množství prostoru. K dekomprimaci souborů .bz2 a .7z mohou být využity následující programy:
- bzip2 (příkazová řádka), dostupný pod licencí BSD
- 7-Zip je dostupný pod LGPL licencí
- WinRAR
- WinZip
- OS X přichází se zabudovaným nástrojem na příkazové řádce pro dekomprimaci bzip2 souborů
- GNU/Linux přichází se zabudovaným nástrojem na příkazové řádce pro dekomprimaci bzip2 souborů
- Některé BSD systémy přicházejí se zabudovaným nástrojem na příkazové řádce. U ostatních, jako OpenBSD je nutné tento nástroj napřed nainstalovat z balíčku
Proč si data nestáhnout sám při běhu?
editovatPředstavme si, že vyvíjíte software, který na některých místech zobrazují informace z Wikipedie. Pokud chcete, aby váš program zobrazil informace jinak, než jsou na Wikipedii, budete pravděpodobně potřebovat wikikód, ve kterém byl text napsán namísto hotového HTML.
Pokud chcete získat všechna data, pravděpodobně je chcete přenést tou nejefektivnější možnou cestou. Servery wikipedia.org musí provést dost práce, než převedou wikikód do HTML. To spotřebovává čas jak váš, tak serverům wikipedia.org, takže stahování všech stránek není správnou cestou.
Prosím uvědomte si, že živé mirrory Wikipedie, které se dynamicky načítají ze serverů Nadace Wikimedia jsou zakázané.
Prosím nevyužívejte web crawler
editovatProsím, nevyužívejte web crawler (robot stahující obsah internetu) pro stažení velkého množství článků. Agresivní využívání těchto robotů mohou vyústit v dramatické zpomalení běhu Wikipedie.
Příklad mailu zaslanému zablokovanému majiteli robota
editovatOrientační překlad z originální anglické verze
IP adresa nnn.nnn.nnn.nnn stahovala až 50 stránek za sekundu ze serverů wikipedia.org. Soubor robots.txt má v tuto chvíli nastaven limit na jednu stránku za sekundu použitím nastavení Crawl-delay. Prosím, respektujte toto nastavení. Za nic nestojí stahování veškerého obsahu Wikipedie pomocí jednoho stáhnutí za sekundu, protože to zabere několik týdnů. Zmíněná IP adresa je nyní zablokována nebo k tomu dojde během krátké doby. Prosím, kontaktujte nás, pokud si přejete být odblokován. Prosím, nesnažte se zablokování obejít - prostě zablokujeme celý rozsah.
Pokud chcete možnosti, jak obsah stáhnout více efektivně, nabízíme spoustu možností, zahrnující týdenní [.pozn 1] dumpy databáze, které můžete načíst do MySQL databáze a pracovat s daty lokálně, využitím rychlosti, které chcete.
Namísto odpovědi na tento e-mail můžete preferovat navštívení kanálu #mediawiki na irc.freenode.net kvůli diskusi vašich názorů s naším týmem.
Provádění SQL dotazů na aktuální verzi databáze
editovatNamísto stahování dumpu databáze můžete využít živé databázové konzole na https://quarry.wmflabs.org .
Schéma databáze
editovatViz také: mw:Manual:Database layout
SQL soubor použitý k inicializaci databáze MediaWiki můžete nalézt zde. XML schéma je definované na začátku každého souboru.
Poznámky
editovat- ↑ Nyní měsíční
Reference
editovatV tomto článku byl použit překlad textu z článku Wikipedia:Database download na anglické Wikipedii.