это в основном технические файлы, как я глянул, css всякие, пока игнорируются, а так, обработку можно сделать аналогичную ':' с той лишь разницей что в другое место сохранять
а, да, в 23 я лег спать, запустил распарсирование по файлам, утром в 7.00 проснулся, все было распарсировано и сохранено по файлам, это для дампа всеё ruwikipedia.
Шаги следующие:
1. lowcase для имен файлов
2. именование русских файлов, тут подробнее: тут наверное что-то нужно в настройке сервера указать, он русские имена файлов сохраняет как %D1%F3 и т.д. у нас же имена файлов получаются в UTF8, локаль тоже UTF8. что нужно менять в конфигах сервера, или в конфигах php...
3. преобразование формата файлов к понятному для DokuWiki (ресурсы есть)
4. прикручивание шаблонов, и, если нужно, корректирование п.3. по преобразованию
после чего все это будет нормально пахать в DokuWiki, единственно нужно будет индекс генерировать
Либо как вариант, вырывается парсилка ВикиКода и пишется аппликуха, хоть на QT4 для просмотра и поиска в базе вики