Страница 2 из 2

Re: Дамп википедии - вьюер

Добавлено: 27 июн 2008 10:01
hatred
ubuntume писал(а):давай. на всяк случ мой ном 904-940 зов мен Ром [но когд я был Дэв :)] твой ном гдет валял над найти :)


+79502974957 Саня, Хатрид или Химик, на все откликнусь :)
Давай в субботу, около 12-13, пиво только не тащи, меня что-то в последнее время на него вообще не стоит :)
тащи цитатник, попробуем разобраться.

Re: Дамп википедии - вьюер

Добавлено: 27 июн 2008 18:04
loooser
ubuntume писал(а):> ИМХО в 700 Мб всё не влезет, если оно уже занимет 600 Мб в сильно сжатом виде. (Может там есть чего выкинуть?
> лишние языки например... Или это всё только на русском языке?)

вики на русском, с выкинутым лишним. в чём проблема уместить ведро (сейчас там 2.6.16), иксы и файрфокс в сквоше в 100 мб? у меня весь линукс 400 занимает (без вики), с кучей разных приложений и игрушек.


А все зависимости, а база для быстрого поиска? Думаешь, всё поместится? Ну хз.

ubuntume писал(а):>> Разве что так и оставить её в squah, только разбить на файлы (1 статья - 1 файл) + маленькая таблица (ссылка ->
> файл в архиве).

ничего не понял


Это некоторые мысли по поводу того, как можно попробовать такое сделать. Но вы уже нашли решение получше :)

Re: Дамп википедии - вьюер

Добавлено: 28 июн 2008 00:51
GuttaLinux
> А все зависимости, а база для быстрого поиска? Думаешь, всё поместится? Ну хз.

какие зависимости? и вообще это слово ругательное, и в моём присутстви попрошу его не применять. даже если ориентироваться на быдлофаерфокс - в 100, может чуть больше - запросто. если фреймбуффер и links - то менее 50 мб. проблема в том, что 6 с чем-то мб оказалось 699 мб :) :( надо попробовать в lzma

Re: Дамп википедии - вьюер

Добавлено: 28 июн 2008 00:54
GuttaLinux
> А все зависимости, а база для быстрого поиска? Думаешь, всё поместится? Ну хз.

какие зависимости? и вообще это слово ругательное, и в моём присутстви попрошу его не применять. даже если ориентироваться на быдлофаерфокс - в 100, может чуть больше - запросто. если фреймбуффер и links - то менее 50 мб. проблема в том, что 6 с чем-то мб оказалось 699 мб :) :( надо попробовать в lzma


> Это некоторые мысли по поводу того, как можно попробовать такое сделать. Но вы уже нашли решение получше :)

я вообще не нашёл никакого решения - ни получше, ни похуже :(

Re: Дамп википедии - вьюер

Добавлено: 29 июн 2008 07:58
hatred
Докрутил вчера xml2sql теперь разбрасывает все статьи по файлам с сохрранением структуры namespace (если титл статьи как: namespace:title указан) ща попробую разбрросать дамп самой вики, посмотрим что будет.

Re: Дамп википедии - вьюер

Добавлено: 29 июн 2008 08:14
hatred
для тестов запустил http://schoolwiki.homelinux.net/doku.php/
пока ничего нет, к полностью удобочитамемому виду приводить, следующий этап.

Re: Дамп википедии - вьюер

Добавлено: 30 июн 2008 08:07
GuttaLinux
Скажи лучше, что ты собираешься делать с именами с "/"?

Re: Дамп википедии - вьюер

Добавлено: 30 июн 2008 10:46
hatred
это в основном технические файлы, как я глянул, css всякие, пока игнорируются, а так, обработку можно сделать аналогичную ':' с той лишь разницей что в другое место сохранять

а, да, в 23 я лег спать, запустил распарсирование по файлам, утром в 7.00 проснулся, все было распарсировано и сохранено по файлам, это для дампа всеё ruwikipedia.

Шаги следующие:
1. lowcase для имен файлов
2. именование русских файлов, тут подробнее: тут наверное что-то нужно в настройке сервера указать, он русские имена файлов сохраняет как %D1%F3 и т.д. у нас же имена файлов получаются в UTF8, локаль тоже UTF8. что нужно менять в конфигах сервера, или в конфигах php...
3. преобразование формата файлов к понятному для DokuWiki (ресурсы есть)
4. прикручивание шаблонов, и, если нужно, корректирование п.3. по преобразованию

после чего все это будет нормально пахать в DokuWiki, единственно нужно будет индекс генерировать :)

Либо как вариант, вырывается парсилка ВикиКода и пишется аппликуха, хоть на QT4 для просмотра и поиска в базе вики