Брокгауз и Ефрон — вики-технологии XIX века

Материал из ЭНЭ
Перейти к: навигация, поиск

Требования

Брокгауз и Ефрон - вики-технологии XIX века

Брокгауз и Ефрон - это эниклопедия счастливого мира, стоящего на пороге ужасных потрясений и великих открытий, это энциклопедия страны, которую мы потеряли в 1917 и 1991ом

Многие статьи энциклопедии до сих пор поражают подробностью, обилием цифр, актов, ссылок.

Этот счастливый мир, стоящий на пороге

Брокгауз и Ефрон - это энциклопедия мира, еще не знающего об ужасах мировых войн, холокосте, ядерных и ковровых бомбардировках, гулаге, голодоморе, культурной революции и красных кхмерах. Выстрел Веры Засулич в ген. Трепова, 24 янв. 1878 г. еще только дал толчок террору как системе, а строители башен-близнецов в Нью-Йорке еще не родились. Бараки считаются прогрессивной системой устройства госпиталей.

"Новейшая революция в естествознании" идет полным ходом, открываются X-лучи, радиоактивность, электрон, пастеризация,радиосвязь, кинематограф делает первые шаги.

Россия, которую мы потеряли

Российская империя еще не разделена на множество государств, Белоруссия еще название, даваемое части России, украинцы еще были малороссами, казахи - по очереди казаками, киргиз-казаками и киргизами.

Аврора только спущена на воду, а трамвайные пути, на которые прольет масло Аннушка, еще только прокладываются. В Сибирь, в розовую даль за лучшей долей устемляются сотни тысяч крестьян и умопорачительными даже для XX и XXI веков прокладывается великий Сибирский путь. Без зэков и концлагерей, без Катерпиллеров и комсомольских путёвок за 15 лет от начала строительства. По окончании строительства проезд от Москвы до Владивостока (8122 верст.) совершался в скорых поездах в 12 сут. 13 часов и стоил во II классе около 169 руб. А через сто лет скорый поезд "Россия" (002М) проходит путь от Москвы до Владивостока за 6д 3ч 38м при цене билета 14716.9 руб. [1]

В Рыбинском уезеде Мальчики школьного возраста обучаются все. За 5 лет, 1892-96 гг., в войска принято безграмотных всего только 0,17%.. Можем ли мы через сто с лишим лет написать подобное в статью Рыбинский район или статью о любом другом районе ? Хотя не всё и не везде было так хорошо. В Енисейской губернии всех врачей в губернии, с ветеринарами - 32, фельдшеров и лекарских помощников 48, повивальных бабок 16. Всех больниц в губернии 5 на 300 кроватей и один дом для душевнобольных на 20 кроватей. В губернии почти ежегодно свирепствуют дифтерит, тиф, оспа, детские поносы. Т.е. один медицинский работник на 300 верст в округе или один на 5 тысяч человек.

Язык

Еще не было ни радио, ни телевидения, Общество электрического освещения еще только делало свои первые шаги. Долгими длинными зимними вечерами интеллегентная публика читала при свете керосиновых ламп романы, записки путешественников. Нередко читали вслкх в семейном кругу или в кружке знакомых и приятелей. Чтение не прерывалось телефонными звонками, рекламными паузами.

Первоисточник

Первоисточником распространения текстов Брокгауза в интернете послужил сайт "cultinfo", Вологодский областной портал "Культура в Вологодской области". В последнее время текст Брокгауза на этом сайте недоступен. Однако точно такой же текст доступен на сайте gatchina3000.ru

С 1996 по 2000 существовал проект "Брокгауз on-line на основе" Малого Брокгауза (1907-09) (45.000 статей)

Кто оцифровывал Малый и Большой Брокгауз так и остается загадкой.

Практически все интернет-проекты, которые содержат информацию из "Брокгауза", использовали тексты cultinfo. Соответственно все недочеты, которые содержались в исходной базе "Брокгауза" расползлись по всем интернет-проектам.

  • Во-первых, в самом исходном тексте в списке статей часть статей помечены как название статьи==нет, (всего 80 статей).
  • Во-вторых, полностью отсутствует "энциклопедия в энциклопедии" - тома 54-55: "Россия"
  • В-третьих, по каким-то причинам отсутствуют еще некоторое количество статей и изображений.
  • В нескольких случаях вместо основной статьи присутствует только дополнение к статье
  • Достаточно часто оказывается, что в одной статье присутствует две "слипшихся" при оцифровке.
  • Практически полностью отсутствует форматирование и разбиение на разделы и абзацы
  • в некоторых случаях даны неверные ссылки на изображения, часть таких ссылок можно восстановить.
  • Очень часто в немецких и французских текстах (в основном это списки использованной литературы) появляются лишние пробелы, например Suppl éme nt вместо Supplément, Archiv f ü r Naturkunde вместо Archiv für Naturkunde
  • Списки литературы практически нечитаемые, сливаются вместе.


Викизнание

В ноябре 2003г на сайт "Викизнание" залит без какой-либо автоматической викификации малый энциклопедический словарь Брокгауза и Ефрона, в августе 2005 - Большой энциклопедический словарь Брокгауза и Ефрона c автоматической фикификацией. Заливки проходили не без проблем, последняя заливка из Брокгауза была выполнена в апреле 2007г (несколько тысяч статей на букву П, которые оказались пропущены ранее). В результате в части статей наблюдается удвоение или даже утроение текста. К сожалению, участники проекта ограничились только автоматической викификацией, ни категоризации (некатегоризировано более 80% статей), ни систематической обработки сделано не было. Кроме того, на вопрос - что делать дальше со статьями, так и не был дан ответ. Некоторую часть статей попытались осовременнить, но ничего сколько-нибудь хорошего так и не получилось.

Также следует добавить, что при заливке статей изображения не заливались и все иллюстрации были сделана ссылками на сайт cultinfo и в настоящее время отсутсвуют в связи с недоступностью данных на последнем.

Урезанная версия Большого Энциклопедического словаря Брокгауза и Ефрона в интернете

В онлайновой энциклопедии Рубрикон содержится

Подборка из 5334 статей «Энциклопедического словаря Брокгауза и Ефрона», подготовленная в современной орфографии и впервые опубликованная на CD-ROM компанией «Аутопан» в 1998 году (около 15% от общего количества статей 86-томного издания, выходившего в 1890-1907 годах).

В частности, в данной подборке отсутствуют статьи "Россия", Индия (550кб),Крестьяне (530кб), Вода (469кб), Сибирь (331 кб), Сибирская железная дорога (116кб), статьи о губерниях, Технология Менделеева (56 кб) и т.д. Кроме того, 5334 составляет никак не 15%, а всего только 4.4% от числа статей БЭСБЕ, а с учетом того, что в состав подборки статей входят только относительно небольшие по объёму статьи, можно утверждать, что в Рубриконе используется фальшивый "Брокгауз", а читателя элементарно "обувают". Кроме сайта Рубрикона и использующего "рубрикон" энциклопедии Mail.ru такой кастрированный Брокгауз находится на некоторых других сайтах. Яндекс использует Малый словарь от компании "Новый Диск" в котором представлено 44194 статей.

Иллюстраций ни в одном из вариантов Малого словаря в интернете нет, что также снижает ценность информации.

Проблемы викификации

Последствия автоматической викификации

К наиболее неприятым последствиям автоматической викификации относится путаница между годами и числами (количество человек, высота местности и т.п.). Для Викизнания достаточно характерна дублирование текстов, т.е. когда один и тот же текст заливался два или более раза, при этом получаются тяжелобрабатываемые статьи размером до 1 Мб и более.

Таблицы

Таблицы представлены в html-виде, иногда простые, иногда - сложные, с множеством разнообразных объединений ячеек по вертикали и горизонтали. Почти всегда - с излишними параметрами ширины и, реже, высоты в пикселях. В некоторых случаях таблицы содержат ошибки синтаксиса html. Для перевода таблиц из html в wiki-вид можно воспользоваться онлайн-конвертером HTML2Wiki Converter, хотя после него все равно нужна ручная обработка получившегося текста.

Списки литературы

Использование символов немецкого и французского алфавитов часто приводит к появлению лишних пробелов, особенно этим страдают списки литературы и библиография. Например, St ö ckl вместо Stöckl, Enc yklopä die вместо Encyklopädie, f ü r вместо für (Только в одной статье Философия встречается 15 раз). Несомненно, что проблемы этого рода связаны с ошибками распознавания.

Ошибки в тексте

Фактологические ошибки в тексте Брокгауза - это тема отдельного иследования, однако большей частью эти ошибки связаны с общим уровнем познания природы в то время. Показательна статья о химическим элементом Дидимий, просуществовавшем в статьях и справочниках десятки лет. С одной стороны - дается неправильное с современной точки зрения описание элемента и его свойств, с другой - указываются результаты очень недавней работы Вельсбаха, разделившего дидимий на празеодим и неодима.

Ошибки в тексте, которые нельзя к фактологическим, могли быть внесены как авторами Брокгауза, так и при наборе. Кроме того, вполне возможны ошибки и разночтения в различных источниках, которыми пользовались авторы. Ну и в довершение всего, имеются ошибки распознавания при переводе в цифровую форму (помимо вышеупомянутых пробелов около умляутов).

В качестве примеров можно привести:

  • статья А posteriori где дается ссылка на арабского философа Ибн Рушда, в то время как в статье Аверроэс это имя дается в несколько ином виде: (собств. Ибн-Рошд; Абуль-Валид Мохаммед ибн-Ахмет ибн-Мохаммед ибн-Рошд)
  • статья Аверроэс ссылается на альмогадийского султана Юссуфа (11631184. А соответствующая статья называется Юсуф, марокканские императоры, в которой есть второй по счету Юсуф II (Абу-Якуб), марокканский император (халиф), умерший в 1184

Использование материалов в Википедии: использовать актуальное и обновлять

Идея использовать Брокгауз в Википедии родилась еще в самом начале рувики, тогда же сложилось отношение к нему, как сборнику старья.

... Из старых энциклопедий в текстовом виде по инету гуляет только Брокгауз, который СЛИШКОМ устарел. Википедия же отличается от всех остальных энциклопедий тем, что содержит самые последние данные. Если же там 95% статей будет занимать старьё, то Вику все будут воспринимать как никому ненужную устаревшую энциклопедию. И потом, лично у меня, нет никакого желания редактировать статьи из Брокгауза. --Stas Kozlovsky 11:05, 19 Июл 2004 (UTC)

Тем не менее, на сегодняший день категория "Материалы ЭСБЕ" ‎в Википедии включает в себя 9923 статьи что составляет 4.8% количества статей в рувики и 8% от числа статей в Брокгаузе. Стоит отметить, что не все статьи из Брокгауза оказались помечены (например, статья Голод в России, созданная в 2005 г, без указания источников, представляет собой урезанную версию "Голода" из Брокгауза.). Кроме того, во многих статьях Википедии используются отдельные фрагменты, часто переработанные, из Брокгауза, а также стоят ссылки на статьи Брокгауза как авторитетный источник. Можно сказать, что потенциал Брокгауза с течением времени все больше используется в Википедии, особенно в части истории. Например, для истории и анализа причин голода в России/СССР после 1917г очень полезно сравнить положение с тем, что было до 1917 (статья Голод Брокгауза).

Альтернативный подход: сохранить как есть, адаптировать для современного читателя