Брокгауз и Ефрон — вики-технологии XIX века

Материал из ЭНЭ
(перенаправлено с «Статья для вики-конференции»)
Перейти к: навигация, поиск
Титульный лист первого полутома Большого энциклопедического словаря Брокгауза-Ефрона

Брокгауз и Ефрон — это энциклопедия счастливого мира, стоящего на пороге ужасных потрясений и великих открытий, это энциклопедия страны, которую мы потеряли в 1917 и 1991.

Многие статьи энциклопедии до сих пор поражают подробностью, обилием цифр, фактов, ссылок. Например, в статье «Рыбинск» приведено около 180 статистических данных по городу и уезду, приведено 6 таблиц о движении товаров с 230 числами, дано 10 ссылок на литературу. В статье Индия самых разнообразных таблиц — 50.

По своей идеологии энциклопедия очень близка вики-технологии, что в общем-то и не удивительно, поскольку вики развивалась главным образом для онлайновых энциклопедий. В самом деле,

  • внутренние гиперссылки в тексте обозначены как (см. это сл.) или (см.), например:
    Для получения С. бревна сперва связывают, различными способами, в венцы (см.)
  • Внешние ссылки реализованы через Ср. (от «Сравните»), например
    Ср. Ефименко, «Исследования народной жизни» (M. 1884).
  • Авторитетные источники (ВП:АИ) — это «Литература» и «Библиография», часто используется также (см.) и cр.
  • Перенаправления (редиректы) сделаны в виде коротких статей, например:
    Гасконский залив — см. Аквитанское море.
  • История правок как это ни удивительно, в Брокгаузе и Ефроне тоже реализована! Причем двумя способами. Первый — достаточно стандартный для многотомных изданий, издающихся длительное время. Под конец издания выпускается отдельный том, в котором выходят дополнения и исправления. В электронной версии Брокгауза и Ефрона такие статьи отмечены словами «(дополнение к статье)» в названии статьи. Кроме того, Д. И. Менделеев использовал символ Δ (дельта) для обозначения статей, в редактировании которых он принял участие, а также для обозначения своих дополнений к тексту других авторов (в качестве примера можно обратиться к статье «Вода»).

Этот счастливый мир, стоящий на пороге

Брокгауз и Ефрон — это энциклопедия мира, ещё не знающего об ужасах мировых войн, холокосте, ядерных и ковровых бомбардировках, гулаге, голодоморе, культурной революции и красных кхмерах. Выстрел Веры Засулич в генерала Трепова, 24 января 1878 года еще только дал толчок террору как системе, а строители башен-близнецов в Нью-Йорке ещё не родились. Бараки считаются прогрессивной системой устройства госпиталей.

«Новейшая революция в естествознании» идёт полным ходом — открываются X-лучи, радиоактивность, электрон, пастеризация, радиосвязь, кинематограф делает первые шаги.

Россия, которую мы потеряли

Российская империя ещё не разделена на множество государств, Белоруссия ещё название, даваемое части России, украинцы ещё были малороссами, казахи — по очереди казаками, киргиз-казаками и киргизами.

Аврора только спущена на воду, а трамвайные пути, на которые прольёт масло Аннушка, еще только прокладываются. В Сибирь, в розовую даль, за лучшей долей устремляются сотни тысяч крестьян и умопомрачительными даже для XX и XXI веков прокладывается великий Сибирский путь. Без зэков и концлагерей, без Катерпиллеров и комсомольских путёвок за 15 лет от начала строительства. По окончании строительства проезд от Москвы до Владивостока (8122 версты) совершался в скорых поездах в 12 суток 13 часов и стоил во II классе около 169 рублей. А через сто лет скорый поезд «Россия» (002М) проходит путь от Москвы до Владивостока за 6 дней 3 часа 38 минут при цене билета 14716,9 рублей. [1]

В Рыбинском уезде мальчики школьного возраста обучаются все. За 5 лет, 1892-96 гг., в войска принято безграмотных всего только 0,17 %. Можем ли мы через сто с лишим лет написать подобное в статью «Рыбинский район» или статью о любом другом районе? Хотя не всё и не везде было так хорошо. В Енисейской губернии всех врачей в губернии, с ветеринарами — 32, фельдшеров и лекарских помощников 48, повивальных бабок 16. Всех больниц в губернии 5 на 300 кроватей и один дом для душевнобольных на 20 кроватей. В губернии почти ежегодно свирепствуют дифтерит, тиф, оспа, детские поносы. То есть один медицинский работник на 300 верст в округе или один на 5 тысяч человек.

Варяг — ещё мелочной торговец, разносчик (в Московской губернии), но половина Сахалина уже отошла к японцам (в дополнении к статье).

Язык

Ещё не было ни радио, ни телевидения, Общество электрического освещения ещё только делало свои первые шаги. Долгими длинными зимними вечерами интеллигентная публика читала при свете керосиновых ламп романы, записки путешественников. Нередко читали вслух в семейном кругу или в кружке знакомых и приятелей. Чтение не прерывалось телефонными звонками, рекламными паузами.

Первоисточник

Первоисточником распространения текстов Брокгауза в интернете послужил сайт «cultinfo», Вологодский областной портал «Культура в Вологодской области». В последнее время текст Брокгауза на этом сайте недоступен. Однако точно такой же текст доступен на сайте gatchina3000.ru.

С 1996 по 2000 существовал проект Сергея Москалёва - «Брокгауз on-line» на основе Малого Брокгауза (1907-09) (45 000 статей). Он оцифровал и отредактировал Малый Брокгауз, потом контент был куплен компанией "Новый Диск".

Практически все интернет-проекты, которые содержат информацию из «Брокгауза», использовали тексты cultinfo. Соответственно все недочёты, которые содержались в исходной базе «Брокгауза» расползлись по всем интернет-проектам.

  • Во-первых, в самом исходном тексте в списке статей часть статей помечены как название статьи==нет (всего 80 статей).
  • Во-вторых, полностью отсутствует «энциклопедия в энциклопедии» — тома 54-55: «Россия».
  • В-третьих, по каким-то причинам отсутствует ещё некоторое количество статей и изображений.
  • В нескольких случаях вместо основной статьи присутствует только дополнение к статье.
  • Достаточно часто оказывается, что в одной статье присутствует две «слипшихся» при оцифровке. Как пример можно указать на статью «Альтернатива», в которой присутствует «Альтернативное обязательство». В «Викизнании» присутствует две статьи «Альтернатива» и «Альтернативное обязательство», при этом в первой в качестве источников частей указан как «Малый Брокгауз», так и «Большой», а во второй — только «Малый». При этом части «Малого» из обоих статей в сумме полностью совпадают со «слипшейся» частью из «Большого».
  • Статью Азовская губерния можно найти в «Малом Брокгаузе», но её нет в исходниках «Большого», возможно это свидельствует о том, что при оцифровке эта статья и некоторые другие были потеряны.
  • Практически полностью отсутствует форматирование и разбиение на разделы и абзацы.
  • В некоторых случаях даны неверные ссылки на изображения, часть таких ссылок можно восстановить.
  • Очень часто в немецких и французских текстах (в основном это списки использованной литературы) появляются лишние пробелы, например Suppl éme nt вместо Supplément, Archiv f ü r Naturkunde вместо Archiv für Naturkunde
  • Списки литературы практически нечитаемые, сливаются вместе.
  • В некоторых случаях одна и та же статья помещена дважды. Например, статья «Абсорбция, в физике, химии и физиологии», находящаяся в файле /1/001/007/000/249.htm, повторяется и в файле /1/001/007/000/346.htm.
  • В других случаях статья в статьях с одним названием оказывается различно содержание. Так, «Антимонит» в /1/001/007/004/4228.htm содержит текст «Антимонит — см. Сурьмяный блеск», а /1/001/007/004/4229.htm — полноценную статью.
  • Еще один вариант — разные статьи с различными предметами статьи, но с одинаковым названием. Например, статья с названием «Антиох» в файле /1/001/007/004/4240.htm — о монахе палестинской лавры и /1/001/007/004/4241.htm о сирийских царях. В «Викизнании» эти тексты оказались в одной статье.

Викизнание

В ноябре 2003 года на сайт «Викизнание» залит без какой-либо автоматической викификации малый энциклопедический словарь Брокгауза и Ефрона, в августе 2005 — Большой энциклопедический словарь Брокгауза и Ефрона c автоматической викификацией. Заливки проходили не без проблем, последняя заливка из Брокгауза была выполнена в апреле 2007 года (несколько тысяч статей на букву «П», которые оказались пропущены ранее). В результате в части статей наблюдается удвоение или даже утроение текста. Некоторые статьи существуют в двух экземплярах с разными названиями, например «Александрия, город в Египте» и «Александрия» (возможно, подобное удвоение является следствием различия наименования статей в Малом и Большом Брокгаузах). К сожалению, участники проекта ограничились только автоматической викификацией; ни категоризации (некатегоризировано более 80 % статей), ни систематической обработки сделано не было. Кроме того, на вопрос — что делать дальше со статьями, — так и не был дан ответ. Некоторую часть статей попытались осовременнить, но ничего сколько-нибудь хорошего так и не получилось.

Также следует добавить, что при заливке статей изображения не заливались и все иллюстрации были сделаны ссылками на сайт cultinfo и в настоящее время отсутствуют в связи с недоступностью данных на последнем.

Урезанная версия Большого Энциклопедического словаря Брокгауза и Ефрона в Интернете

В онлайновой энциклопедии «Рубрикон» содержится

Подборка из 5334 статей «Энциклопедического словаря Брокгауза и Ефрона», подготовленная в современной орфографии и впервые опубликованная на CD-ROM компанией «Аутопан» в 1998 году (около 15 % от общего количества статей 86-томного издания, выходившего в 1890—1907 годах).

В частности, в данной подборке отсутствуют статьи «Россия», «Индия» (550 кб), «Крестьяне» (530 кб), «Вода» (469 кб), «Сибирь» (331 кб), «Сибирская железная дорога» (116 кб), статьи о губерниях, «Технология» Менделеева (56 кб) и т. д. Кроме того, 5334 составляет никак не 15 %, а всего только 4,4 % от числа статей БЭСБЕ, а с учётом того, что в состав подборки статей входят только относительно небольшие по объёму статьи, можно утверждать, что в Рубриконе используется фальшивый «Брокгауз», а читателя элементарно «обувают». Кроме сайта Рубрикона и использующей «Рубрикон» энциклопедии Mail.ru такой кастрированный Брокгауз находится на некоторых других сайтах. Яндекс использует Малый словарь от компании «Новый Диск», в котором представлено 44 194 статьи.

Иллюстраций ни в одном из вариантов Малого словаря в Интернете нет, что также снижает ценность информации.

Количество статей

В Википедии утверждается, что энциклопедия содержит большое количество статей: 121 240 статей, 7 800 иллюстраций, 235 карт. Однако не указан источник информации — включает ли это число два тома «Россия» и 4 дополнительных полутома. При попытке сравнить число статей в Брокгаузе с числом статей в другой энциклопедии или Википедии следует учитывать, что

  • в число статей Брокгауза с одной стороны включают множество мелких статей—перенаправлений, а с другой стороны
  • часть статей Брокгауза эквивалентна нескольким статьям «Википедии». Например, статьи о дворянских фамилиях могут включать сведения о большом количестве исторических личностей, для каждой их которых в Википедии отводится отдельная статья. Статьи о странах, губерниях и регионах эквивалентны аналогичным статьям в Википедии, в которые разбиваются на статьи с общим описанием и статьи о климате, географии, истории, экономики.

Проблемы викификации

Последствия автоматической викификации

К наиболее неприятным последствиям автоматической викификации относится путаница между годами и числами (количество человек, высота местности и т. п.). Для Викизнания достаточно характерно дублирование текстов, то есть когда один и тот же текст заливался два или более раза, при этом получаются тяжелообрабатываемые статьи размером до 1 Мб и более.

Таблицы

Таблицы представлены в html-виде, иногда простые, иногда — сложные, с множеством разнообразных объединений ячеек по вертикали и горизонтали. Почти всегда — с излишними параметрами ширины и, реже, высоты в пикселях. В некоторых случаях таблицы содержат ошибки синтаксиса html. Для перевода таблиц из html в wiki-вид можно воспользоваться онлайн-конвертером HTML2Wiki Converter, хотя после него всё равно нужна ручная обработка получившегося текста.

Пример обработки таблиц
Таблица из статьи «Черниговская губерния» до обработки: строки разъезжаются, выравнивание чисел по левому краю, заголовки столбцов не выделены
Таблица из статьи «Черниговская губерния» после обработки: улучшился внешний вид, таблица стала более компактной

Списки литературы

Использование символов немецкого и французского алфавитов часто приводит к появлению лишних пробелов, особенно этим страдают списки литературы и библиография. Например, St ö ckl вместо Stöckl, Enc yklopä die вместо Encyklopädie, f ü r вместо für (только в одной статье «Философия» встречается 15 раз). Несомненно, что проблемы этого рода связаны с ошибками распознавания.

Ошибки в тексте

Фактологические ошибки в тексте Брокгауза — это тема отдельного исследования, однако большей частью эти ошибки связаны с общим уровнем познания природы в то время. Показательна статья о химическим элементе дидимий, просуществовавшем в статьях и справочниках десятки лет. С одной стороны — даётся неправильное с современной точки зрения описание элемента и его свойств, с другой — указываются результаты очень недавней работы Вельсбаха, разделившего дидимий на празеодим и неодим.

Ошибки в тексте, которые нельзя отнести к фактологическим, могли быть внесены как авторами Брокгауза, так и при наборе. Кроме того, вполне возможны ошибки и разночтения в различных источниках, которыми пользовались авторы. Ну и в довершение всего, имеются ошибки распознавания при переводе в цифровую форму (помимо вышеупомянутых пробелов около умляутов).

В качестве примеров можно привести:

  • статья «А posteriori», где дается ссылка на арабского философа Ибн Рушда, в то время как в статье «Аверроэс» это имя даётся в несколько ином виде: (собств. Ибн-Рошд; Абуль-Валид Мохаммед ибн-Ахмет ибн-Мохаммед ибн-Рошд).
  • статья «Аверроэс» ссылается на альмогадийского султана Юссуфа (11631184). А соответствующая статья называется «Юсуф, марокканские императоры», в которой есть второй по счету Юсуф II (Абу-Якуб), марокканский император (халиф), умерший в 1184.

Использование материалов в Википедии: использовать актуальное и обновлять

Идея использовать Брокгауз в Русской Википедии родилась ещё в самом начале, тогда же сложилось отношение к нему, как сборнику старья.

… Из старых энциклопедий в текстовом виде по инету гуляет только Брокгауз, который СЛИШКОМ устарел. Википедия же отличается от всех остальных энциклопедий тем, что содержит самые последние данные. Если же там 95 % статей будет занимать старьё, то Вику все будут воспринимать как никому ненужную устаревшую энциклопедию. И потом, лично у меня, нет никакого желания редактировать статьи из Брокгауза. --Stas Kozlovsky 11:05, 19 Июл 2004 (UTC)

Тем не менее, на сегодняшний день категория «Материалы ЭСБЕ» ‎в Википедии включает в себя 9923 статьи, что составляет 4,8 % количества статей в ней и 8 % от числа статей в Брокгаузе. Стоит отметить, что не все статьи из Брокгауза оказались помечены (например, статья «Голод в России», созданная в 2005 году, без указания источников, представляет собой урезанную версию «Голода» из Брокгауза). Кроме того, во многих статьях Википедии используются отдельные фрагменты, часто переработанные, из Брокгауза, а также стоят ссылки на статьи Брокгауза как авторитетный источник. Можно сказать, что потенциал Брокгауза с течением времени всё больше используется в Википедии, особенно в части истории. Например, для истории и анализа причин голода в России/СССР после 1917 года очень полезно сравнить положение с тем, что было до 1917 (статья «Голод» Брокгауза).

Общие идеи относительно использования материалов Брокгауза в Википедии были изложены в так называемом «Манифесте № 1» 23 марта 2005 года.


Суть Манифеста № 1 проста — перенести всё полезное, что есть в ЛЭ и ЭСБЕ в Википедию, руководствуясь её Правилами и указаниями. Далее собственно описание.

  1. Наиболее правильным представляется перенос статей о значимых персоналиях, статьих о которых в ЭСБЕ охватывают весь или больший период их жизни.
  2. Статьи должны быть викифицированы и предварительно скорректированы. При переносе рекомендуется обращать внимание (и изменять текст) на соответствие используемого времени (описание д.б. в прошедшем времени), названия исторических событий, географические названия, соответствие описаний научных явлений современным представлениям.
  3. При переносе статей о не русских персонах необходимо обращать внимание на соответствие имени современному написанию. В этих случаях рекомендуется ставить интервики. Для поиска иноязычной статьи можно использовать поиск по wikipedia.org в универсальных поисковиках.
  4. Настоятельно рекомендуется проставлять категории. Впрочем новичкам это делать не обязательно, в этом случае просьба вести список созданных статей типа участник/список статей из ЭСБЕ и дать на него ссылку по страницы проекта.


Необходимо заметить, что в манифесте был упущен момент с необходимостью соблюдения неимущественных авторских прав авторов Брокгауза, в частности, право на имя, которое в Брокгаузе реализовано через подписи авторов. Подписи, как правило, стоят под самыми интересными и подробными статьями. Первоначально в Википедии к подписям авторов Брокгауза отнеслись также, как к подписям участников, которые запрещены в пространстве статей — то есть при копировании статьи из Брокгауза подпись автора удалялась.

Альтернативный подход: сохранить как есть, адаптировать для современного читателя

Альтернативный подход к статьям Брокгауза и Ефрона предлагается в ЭНЭ. Следует сохранить статьи как есть, по возможности адаптировать для современного читателя:

  • для повышения читабельности в интернет-виде добавить форматирование, разбиение на разделы, разбить монолитные куски текста на абзацы.
  • добавить внутренние перекрёстные ссылки (гипертекстовые возможности)
  • добавить иллюстрации
  • добавить ссылки как на современные статьи, раскрывающие тему, так и на внешние интернет-источники по теме, позволяющие всесторонне ознакомиться с предметом статьи
  • добавить комментарии (об ошибках, заблуждениях, изменившемся значении терминов и т. п.)