Дамп википедии - вьюер

Ваши пожелания и предложения
Аватара пользователя
hatred
Global Moderator
Global Moderator
Сообщения: 1205
Зарегистрирован: 08 июн 2006 00:32
Откуда: Владивосток
Контактная информация:

Re: Дамп википедии - вьюер

Сообщение hatred »

ubuntume писал(а):давай. на всяк случ мой ном 904-940 зов мен Ром [но когд я был Дэв :)] твой ном гдет валял над найти :)


+79502974957 Саня, Хатрид или Химик, на все откликнусь :)
Давай в субботу, около 12-13, пиво только не тащи, меня что-то в последнее время на него вообще не стоит :)
тащи цитатник, попробуем разобраться.
Прошли времена когда на элементарные вопросы можно было отвечать man <что-то там> (с) из сети
Hatred's Log Place | My GitHub repos | My Gitlab repos

loooser
Sr. Member
Sr. Member
Сообщения: 286
Зарегистрирован: 07 июн 2006 16:10
Откуда: Владивосток
Контактная информация:

Re: Дамп википедии - вьюер

Сообщение loooser »

ubuntume писал(а):> ИМХО в 700 Мб всё не влезет, если оно уже занимет 600 Мб в сильно сжатом виде. (Может там есть чего выкинуть?
> лишние языки например... Или это всё только на русском языке?)

вики на русском, с выкинутым лишним. в чём проблема уместить ведро (сейчас там 2.6.16), иксы и файрфокс в сквоше в 100 мб? у меня весь линукс 400 занимает (без вики), с кучей разных приложений и игрушек.


А все зависимости, а база для быстрого поиска? Думаешь, всё поместится? Ну хз.

ubuntume писал(а):>> Разве что так и оставить её в squah, только разбить на файлы (1 статья - 1 файл) + маленькая таблица (ссылка ->
> файл в архиве).

ничего не понял


Это некоторые мысли по поводу того, как можно попробовать такое сделать. Но вы уже нашли решение получше :)

Аватара пользователя
GuttaLinux
Full Member
Full Member
Сообщения: 177
Зарегистрирован: 04 фев 2008 00:17

Re: Дамп википедии - вьюер

Сообщение GuttaLinux »

> А все зависимости, а база для быстрого поиска? Думаешь, всё поместится? Ну хз.

какие зависимости? и вообще это слово ругательное, и в моём присутстви попрошу его не применять. даже если ориентироваться на быдлофаерфокс - в 100, может чуть больше - запросто. если фреймбуффер и links - то менее 50 мб. проблема в том, что 6 с чем-то мб оказалось 699 мб :) :( надо попробовать в lzma

Аватара пользователя
GuttaLinux
Full Member
Full Member
Сообщения: 177
Зарегистрирован: 04 фев 2008 00:17

Re: Дамп википедии - вьюер

Сообщение GuttaLinux »

> А все зависимости, а база для быстрого поиска? Думаешь, всё поместится? Ну хз.

какие зависимости? и вообще это слово ругательное, и в моём присутстви попрошу его не применять. даже если ориентироваться на быдлофаерфокс - в 100, может чуть больше - запросто. если фреймбуффер и links - то менее 50 мб. проблема в том, что 6 с чем-то мб оказалось 699 мб :) :( надо попробовать в lzma


> Это некоторые мысли по поводу того, как можно попробовать такое сделать. Но вы уже нашли решение получше :)

я вообще не нашёл никакого решения - ни получше, ни похуже :(

Аватара пользователя
hatred
Global Moderator
Global Moderator
Сообщения: 1205
Зарегистрирован: 08 июн 2006 00:32
Откуда: Владивосток
Контактная информация:

Re: Дамп википедии - вьюер

Сообщение hatred »

Докрутил вчера xml2sql теперь разбрасывает все статьи по файлам с сохрранением структуры namespace (если титл статьи как: namespace:title указан) ща попробую разбрросать дамп самой вики, посмотрим что будет.
Прошли времена когда на элементарные вопросы можно было отвечать man <что-то там> (с) из сети
Hatred's Log Place | My GitHub repos | My Gitlab repos

Аватара пользователя
hatred
Global Moderator
Global Moderator
Сообщения: 1205
Зарегистрирован: 08 июн 2006 00:32
Откуда: Владивосток
Контактная информация:

Re: Дамп википедии - вьюер

Сообщение hatred »

для тестов запустил http://schoolwiki.homelinux.net/doku.php/
пока ничего нет, к полностью удобочитамемому виду приводить, следующий этап.
Прошли времена когда на элементарные вопросы можно было отвечать man <что-то там> (с) из сети
Hatred's Log Place | My GitHub repos | My Gitlab repos

Аватара пользователя
GuttaLinux
Full Member
Full Member
Сообщения: 177
Зарегистрирован: 04 фев 2008 00:17

Re: Дамп википедии - вьюер

Сообщение GuttaLinux »

Скажи лучше, что ты собираешься делать с именами с "/"?

Аватара пользователя
hatred
Global Moderator
Global Moderator
Сообщения: 1205
Зарегистрирован: 08 июн 2006 00:32
Откуда: Владивосток
Контактная информация:

Re: Дамп википедии - вьюер

Сообщение hatred »

это в основном технические файлы, как я глянул, css всякие, пока игнорируются, а так, обработку можно сделать аналогичную ':' с той лишь разницей что в другое место сохранять

а, да, в 23 я лег спать, запустил распарсирование по файлам, утром в 7.00 проснулся, все было распарсировано и сохранено по файлам, это для дампа всеё ruwikipedia.

Шаги следующие:
1. lowcase для имен файлов
2. именование русских файлов, тут подробнее: тут наверное что-то нужно в настройке сервера указать, он русские имена файлов сохраняет как %D1%F3 и т.д. у нас же имена файлов получаются в UTF8, локаль тоже UTF8. что нужно менять в конфигах сервера, или в конфигах php...
3. преобразование формата файлов к понятному для DokuWiki (ресурсы есть)
4. прикручивание шаблонов, и, если нужно, корректирование п.3. по преобразованию

после чего все это будет нормально пахать в DokuWiki, единственно нужно будет индекс генерировать :)

Либо как вариант, вырывается парсилка ВикиКода и пишется аппликуха, хоть на QT4 для просмотра и поиска в базе вики
Прошли времена когда на элементарные вопросы можно было отвечать man <что-то там> (с) из сети
Hatred's Log Place | My GitHub repos | My Gitlab repos

Ответить