Курс лекций: Информационное обеспечение автоматизированных библиотечных систем. Часть 3 — Вопросы конвертирования международных форматов

Конвертирование форматов — преобразование данных из одного формата в другой, воспринимаемый иной системой (как правило, при экспорте или импорте данных).

Конвертор — программное средство для перекодирования данных из одного машинного кода в другой или из одного формата в другой.

Вопросы конвертирования международных форматов

Международное информационное сотрудничество, библиотечно-информационная кооперация, а также переход к корпоративной каталогизации порождает необходимость обмена огромными информационными документопотоками. Поскольку в отечественной практике каталогизации утвердились параллельно два международных формата USMARC и UNIMARC, причем с различными модификациями, возникла необходимость в разработке универсального конвертора из одного формата в другой с возможностью многовариантных дополнений. Многие информационные автоматизированные системы ставили перед собой эту задачу и в большей или меньшей степени решали ее, но как правило, игнорируя такие важные элементы данных как индикаторы и контрольные подполя, так например, ИНФОРМСистема разработала автономный конвертор с учетом соответствия форматов только на уровне полей и подполей. Кроме того не была освоена конверсия форматов с полным репертуаром видов материалов.

В международной практике неоднократно проводились попытки конвертирования двух форматов. Остановимся на некоторых из них. Библиотека Конгресса США имеет автономный конвертор USMARC-UNIMARC, работающий однако через формат-посредник, которым является внутренний формат системы. Система VTLS имеет подобный конвертор, но встроенный внутрь системы, также работающей на своем формате. Поэтому, при наличии внутренних форматов напрямую соответствия эквивалентов UNIMARC и USMARC не проводилось. В 90-е годы на уровне ИФЛА для MARC-форматов был разработан проект универсального конвертирования USEMARCON, посредником в котором является формат UNIMARC. Но в данном проекте не учитывается специфика формата — встроенные поля, что не позволяет проводить подробного конвертирования.

Разработка конверторов довольно трудоемкий процесс, успех которого зависит от возможностей программного обеспечения, комплекса технических средств и интеллектуального потенциала разработчиков.

Сопоставление форматов проводилось по структурным и семантическим характеристикам. В ходе сопоставления элементов данных определялось их соответствие по содержанию и способу записи. Было выявлено несколько типов соответствия: элементы данных форматов полностью соответствуют; элементы данных отсутствуют в каком-либо формате; элемент одного формата является частью элемента другого формата; элемент одного формата соответствует множеству элементов другого формата. Было установлено несколько параметров эквивалентности данных. Безусловное соответствие, соответствие при условии, полное несоответствие элементов данных.

Анализ элементов данных показал, что степень совместимости форматов весьма высока на уровне содержания данных. Около 40% данных форматов аналогичны и конвертируются без каких-либо условий соответствия. Практически полностью конвертируются примечания, блоки описательной информации и взаимосвязанных заглавий для однотомных изданий. Остальные конвертируются в соответствующие элементы при наличии условий различной степени сложности. Блок интеллектуальной ответственности конвертируется в соответствии со значением индикаторов.

При конвертировании разработчики сталкиваются со следующими трудностями в сопрягаемости форматов:

1. Конвертирование кодированных элементов данных.

Одним из самых трудоемких процессов является составление трансляторов для кодированной информации, которая в своем большинстве приводится в полях с позиционным значением. В основном, кодированная информация используется для непечатных категорий материалов: карт, звукозаписей, видеозаписей, проекционной графики и др., так как их основные характеристики содержатся в элементах данных фиксированной длины. Поскольку поля с позиционным расположением данных не определяются идентификаторами и их позиции следуют в числовом порядке, любое смещение в ту или другую сторону приводит к абсурдным ошибкам при конверсии.

В формате USMARC существует всего четыре поля для кодированной информации: обязательное поле 008, которое содержит 40 позиций символов для всех единиц описания и вспомогательные для дополнительных характеристик, в основном, непечатных категорий материала. Так поле 007 в формате USMARC дает физические характеристики единицы описания для семи видов документов, причем все виды отличаются числом позиций и различным набором односимвольных кодов, которые формируются в зависимости от начальной позиции самого поля и маркера записи. В формате UNIMARC 20 полей фиксированной длины, каждое из которых относится к определенному виду материала. Поэтому совмещать эквиваленты при таких неоднозначных системах кодирования крайне трудно, если к тому же учесть, что каждый аналогичный элемент закодирован, как правило, различными символами, требующими в свою очередь трансляции. Даже коды стран в форматах приводятся в разных стандартах. В UNIMARC это ISO 3166, в USMARC это Перечень кодов Библиотеки Конгресса. В конверторе насчитывается свыше 200 таблиц-трансляторов кодов физических характеристик для всех видов материалов. Поля кодированной информации в форматах не являются обязательными, часто заполняются пробелами или символами-эаполнителями, поэтому определить правильную позицию с соответствующим кодом при конверсии можно только с помощью программ глобального контроля.

2. Индикаторы.

Особое место при конвертировании отводится индикаторам. Семантическое несоответствие индикаторов в эквивалентных полях может привести к заведомой потере информации. Если поля соответствуют по содержанию, а их индикаторы противоположны по значению, информация конвертируется, игнорируя индикаторы на входе, а в выходном формате индикаторам придается условное наиболее распространенное значение. Так например, в соответствующих полях основного заглавия в поле 200 индикатор обозначает значимость заглавия, а в 245 индикатор указывает на наличие добавочной записи. В результате такого несоответствия на выходе индикатору придается условное значение, при этом для результатов конвертирования необходима последующая визуальная доработка поля.

Как правило, индикаторы в эквивалентных полях форматов конвертируются с помощью отдельных таблиц соответствия для каждого поля.

При сравнении двух форматов обращает внимание повышенная семантическая нагрузка на индикаторы в формате USMARC. Часто значение индикаторов соответствует отдельным полям в формате UNIMARC, например, поле 246 USMARC конвертируется в соответствии со значением индикаторов в 510, 517, 512, 513, 514 поля UNIMARC, поле 780 USMARC конвертируется в поля связи 430-437, при обратном конвертировании наоборот несколько полей формата UNIMARC конвертируются в одно поле формата USMARC согласно индикаторам.

Наличие индикаторов в формате USMARC и отсутствие их в соответствующих полях UNIMARC не позволяет качественно осуществлять конверсию.

3. Условные разделительные знаки.

Проблема при конвертировании возникает в результате использования в формате USMARC условных разделительных знаков в качестве идентификаторов элементов данных, которые при конвертировании должны быть преобразованы в подполя UNIMARC. При обратном конвертировании разделительные знаки должны расставляться в соответствующие подполя программными средствами.

Трудности возникали в преобразовании контрольных номеров, имеющих дефисы. Например, международный стандартный книжный номер-ISBN. В записи USMARC номер ISBN приводится без дефисов, а в UNIMARC записывается в определенной структуре с дефисами, поэтому конвертирование из UNIMARC с подавлением дефисов проходит нормально, а при обратном конвертировании для восстановления дефисов должна быть разработана очень сложная система алгоритмов с приведением таблиц порядка присвоения стандартных номеров, эта задача пока не решена.

4. Сборники без общего заглавия.

Серьезную проблему представляло конвертирование сборников без общего заглавия. В формате UNIMARC в поле заглавия предусмотрено подполе для заглавия произведения второго автора, USMARC не идентифицирует заглавие второго автора, приводит его в структуре библиографического описания через точку, которая не может служить признаком для построения соответствующего алгоритма.

Поэтому при конвертировании UNIMARC в USMARC могут возникнуть затруднения с правильным форматированием заглавия на выходе, осложненном простановкой условных разделительных знаков, потери информации удалось избежать путем сложных условий программирования. Однако обратного конвертирования достичь не удалось. В связи с этим при конверсии подобных записей, в выходном формате USMARC необходима интеллектуальная доработка документов.

5. Поля связи.

Следующей проблемой в процессе конвертирования является конвертирование из UNIMARC записей со сложной иерархической структурой связи. Причем в процессе конвертирования надо учитывать две схемы связи в формате UNIMARC: со встроенными полями и со стандартными подполями. Для этого необходимо раработать 4 таблицы соответствия со сложными алгоритмами зависимости элементов и уровнями связи и соответственно структурами эквивалентных полей в формате USMARC. При этом необходимо иметь в виду, что каждый формат имеет несколько иерархических структур взаимосвязанных заглавий, когда поля того и другого формата могут иметь разные варианты соответствия, например, 463--505 или 463--774, 461--440 или 461--773. В результате конвертор должен иметь несколько программных настроек, чтобы иметь на выходе соответствующий вариант, который должен декларироваться.

6. Отсутствие элементов данных.

Поскольку USMARC является в большей степени форматом каталогизации, он содержит большое количество полей, используемых для обозначения фондов, экземпляров и добавочных описаний. UNIMARC как обменный формат не должен поддерживать аналогичные элементы. Формат USMARC содержит около 190 полей, формат UNIMARC — 165 полей. В USMARC детально разработана система контрольных номеров Библиотеки Конгресса, Национальной сельскохозяйственной библиотеки, Национальной медицинской библиотеки, Национальной библиотеки Канады и др. номеров, которые не находят соответствия в формате UNIMARC. Поэтому некоторые данные, не имея эквивалентов, не участвуют в конвертировании и дополняют потерю информации.

Еще с одной трудностью сталкиваются разработчики конвертора, получая информацию из зарубежных источников каталогизации — это различные таблицы наборов кодирования графических символов в отечественных и иностранных автоматизированных системах. В нашей компьютерной среде в зарубежных файлах появляются лишние кириллические символы, которые необходимо подавлять программными средствами. В международной практике начали широко использоваться 16тиричные таблицы UNICOD, позволяющие избегать подобных издержек, но для нас они пока недоступны по экономическим причинам, т.к. требуют больших объемов памяти и, следовательно, высококлассной техники.

Помимо конвертирования одного формата в другой, конвертор может производить дополнительные функции:

· обрабатывает записи в соответствии с двумя вариантами форматирования полей связи UNIMARC: со встроенными полями, со стандартными подполями,

· конвертирует записи на все виды документов,

· имеет двуязычный интерфейс на русском и английском языках,

· может показывать исходную и обработанную запись в соответствующем формате, проводить поиск обработанных документов,

· пользователь может самостоятельно дополнять форматы новыми полями без сложных условий соответствия,

· пользователь может удалять ненужные ему поля из конвертора по своему усмотрению и перенастраивать конвертор.

В информационной среде России вливается еще один коммуникативный формат — RUSMARC, который необходимо учитывать при конверсии, если он займет ведущую роль при обмене информации в стране. Хотя формат RUSMARC является версией формата UNIMARC, он содержит такие исключения, что соответствовать UNIMARC может только через конвертор.

Возникает проблема — разрабатывать еще один конвертор RUSMARC-USMARC(MARC21) или проводить промежуточное конвертирование RUSMARC-UNIMARC.

Вы здесь: Главная Библиотечное дело Курс лекций: Информационное обеспечение автоматизированных библиотечных систем. Часть 3