Как создать дамп MediaWiki для автономного использования?


16

Я хотел бы иметь возможность делать автономную версию сайта MediaWiki на еженедельной основе.

Расширение DumpHTML на самом деле делает то, что я хочу, так как оно выгружает все статьи и медиафайлы, но я не вижу ни одного индекса всех статей, которые он выгрузил, поэтому я не могу перемещаться по дампу.

Читая о функции дампа XML, которую имеет MediaWiki, мне интересно, можно ли будет использовать программу для просмотра этих файлов или, возможно, преобразовать их в html?

Или есть другие способы сделать офлайновую версию сайта MediaWiki?


Вам действительно нужен индекс? Просто начните с Main Pageи перейдите по ссылкам оттуда.
Илмари Каронен

Вот инструкции Cam Webb по созданию статической версии сайта MediaWiki. Вот мои , на случай, если они кому-нибудь помогут. Оба дают ссылки на статический результат ( мой здесь ).
Майкл Аллан

Ответы:


8

Вы можете использовать инструмент веб-сканирования, который будет сохранять сайт в виде HTML-файлов. Все ссылки будут конвертированы, так что вы можете открыть главную страницу, скажем, а затем перейти по ссылкам и перейти на весь сайт.

Существует ряд доступных инструментов. Я использую wget , который основан на командной строке и имеет тысячи вариантов, поэтому не очень дружелюбный. Однако это довольно мощный.

Например, вот командная строка, которую я использовал для вывода своего собственного сайта MediaWiki. Я предлагаю вам понять каждый вариант, прежде чем использовать его самостоятельно:

"c:\program files\wget\wget" -k -p -r -R '*Special*' -R '*Help*' -E http://example.com/wiki

10

Вы можете взять их -pages-articles.xml.bz2с сайта дампов Викимедиа и обработать их с помощью WikiTaxi (скачать в левом верхнем углу). Инструмент импорта Wikitaxi создаст .taxiфайл (около 15 Гб для Википедии) из.bz2 файла. Этот файл будет использоваться программой WikiTaxi для поиска статей. Опыт очень похож на опыт браузера.

Или вы можете использовать Kiwix , быстрее настроить, потому что он также предоставляет уже обработанные дампы ( .zimфайлы). Поскольку в комментарии указано, что можно использовать другие сайты MediaWiki для kiwix mwoffliner, он может работать не со всеми, поскольку они могут иметь собственные различия, но это единственный вариант, с которым я столкнулся.

Брать вещи с Викимедиа wgetне очень хорошая практика. Если слишком много людей сделают это, это может затопить сайты запросами.


Позже отредактируйте для случая, если вы хотите также изображения в автономном режиме:

XOWA Project

Если вы хотите полностью отразить полное форматирование HTML в Википедии (включая изображения), которое будет загружено примерно через 30 часов , вы должны использовать:

Английская Википедия имеет много данных. Есть более 13,9 миллионов страниц с более чем 20,0 ГБ текста, а также более 3,7 миллиона миниатюр.

XOWA :

Настройка всего этого на вашем компьютере не будет быстрым процессом ... Для самого импорта потребуется 80 ГБ дискового пространства и пять часов для обработки текстовой версии. Если вам нужны изображения, их число увеличивается до 100 ГБ на диске и 30 часов времени обработки. Однако, когда вы закончите, у вас будет полная, свежая копия английской Википедии с изображениями, которые могут поместиться на SD-карту 128 ГБ.

Но автономная версия очень похожа на онлайн-версию, включает фотографии и т. Д. (Я проверил нижеприведенную статью полностью в автономном режиме) введите описание изображения здесь


Позже отредактируйте, если ничего из вышеперечисленного не применимо:

Если вики не является частью Викимедиа или не имеют дампа, на github есть проект, который загружает эту вики с помощью ее API:

WikiTeam - мы архивируем вики, от Википедии до мельчайших вики


1
В случае сброса пользовательской установки MediaWiki XOWA вполне может это сделать (могут возникнуть некоторые проблемы), поэтому следующая статья xowa.org/home/wiki/App/Wiki_types/Wikia.com весьма полезна. Использование Kiwix с пользовательскими вики еще предстоит проверить ( сначала нужно сбросить вики с помощью github.com/kiwix/mwoffliner или другого инструмента)
эскалатор
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.