Взгляд на архивы будущего (Сообщение американского Национального научного фонда)

США. Апрель 2011 г. -- Американский Национальный научный фонд (National Science Foundation - NSF) публикует на своем веб сайте отчет о проекте по визуализации электронных архивов. [1] Данный проект разрабатывается группой исследователей Техасского суперкомпьютерного центра (Texas Advanced Computer Center - TACC) под руководством Марии Естевой (Maria Esteva), архивиста TACC, и Вейя Шу (Weijia Xu), специалиста по анализу. Целью проекта является создание компьютерных средств визуализации больших электронных архивных коллекций и взаимосвязей между электронными документами. В связи с постоянно растущим объемом документов и записей в электронном формате, поступающими на архивное хранение, архивистам и исследователям все более требуются продвинутые средства компьютерной визуализации коллекций и взаимосвязей между их частями.

В отчете указывается, что эта проблема стоит особенно остро перед Национальной администрацией архивов и документов (National Archives and Records Administration - NARA), правительственной организацией, отвечающей за управление национальными историческими документами и их сохранность. "После консультаций с NARA и выяснения их потребностей, сотрудники TACC разработали гибкий подход, в котором разные модели анализа данных объединены в единую схему визуализации. Эти картинки-визуализации осуществляют роль моста между архивистом и данными путем интерактивного рендирования информации в качестве форм и цветов с тем чтобы упростить пониманние структуры и контента архивного фонда". 

Например, одной из примененных моделей стала древовидная карта (treemap), позволяющая отображать "иерархические (древовидные) структуры в видне набора вложенных прямоугольников. Каждая ветвь дерева задается прямоугольником, который затем разбит на меньшие прямоугольники представляющие под-ветви основного. Площадь каждого прямоугольника пропорциональна размеру данных, который он отображает. Прямоугольники окрашиваются в разные цвета для четкого отображения размерности различных данных." [2] Создаваемые "на лету", такие визуализации позволяют архивисту, как отмечается в отчете NSF, быстро сравнивать структуры и контент разных коллекций. Один из подходов для анализа данных, разработанных в рамках данного проекта, позволяет комбинировать алгоритм сопоставления цепочек (string alignment algorithm) с методами обработки текстов на естественных языках (Natural Language Processing). Последний подход используется для обработки названий директорий и файлов с тем чтобы помочь архивисту определить, какие группы документов организованы по одинаковым именам, датам, географии, порядковому номеру или комбинации из этих категорий. Мария Естева подчеркивает, что "фундаментальной задачей нашего проекта является определить, в какой степени визуализация и абстракции данных помогают архивистам анализировать коллекции и более глубоко понимать их структуру и содержание".

С любезного разрешения сотрудников Техасского суперкомпьютерного центра, мы публикуем экраны с примерами визуализации архивных коллекций:


 
 
Рис. 1. Древовидная структура тестовой коллекции представлена в виде прямоугольников. Такой вид позволяет архивисту выбрать корреспонденцию в зависимости от количества файлов (размер директории), их размеров (градации
желтого) и распределения в директории. 
Рис. 2. Репрезентация веб сайта, содержащего приблизительно 2,000 файлов разных форматов. Разными оттенками желтого цевета отмечаются различные количества PDF файлов в директориях веб сайта. Фиолетовым цветом отмечаются закономерности в названиях файлов в разных директориях.  
   
 
 
Рис. 3. Вид файлов Геологической службы США (U.S. Geological Survey) с точки зрения их сохранности. На этом экране разные файлы объединены в индивидуальные группы, которые показывают через свою окраску разные степени риска, которому подвергаются  файлы с точки зрения их долгосрочной сохранности. Рис. 4. Результат анализа коллекции с использованием метода обработки текстов на естественных языках. Зеленым отмечены директории, в которых документы организованы по датам. 
   
Авторы визуализаций: Мария Эстева (Maria Esteva), Вей Шу (Weijia Xu), Сьог Датт Джейн (Suyog Dutt Jain) и Варун Джейн (Varun Jain).


Источники
[1] A Glimpse of the Archives of the Future. NSF Report. April 5, 2011. http://www.nsf.gov/discoveries/disc_summ.jsp?org=NSF&cntn_id=119074

[2] Описание утилиты Disk Inventory X. http://osmaster.org.ua/?p=424

Тематика
Natural Language Processing

Имена
Maria Esteva
Weijia Xu
Suyog Dutt Jain
Varun Jain

Организации

География
США