habrahabr

Internet Archive закачает на Flickr более 14 млн свободных исторических изображений

  • воскресенье, 31 августа 2014 г. в 03:10:49
http://habrahabr.ru/post/235031/



Один из работников Internet Archive разработал программу для автоматического извлечения иллюстраций из миллионов книг в процессе OCR-сканирования, которое сейчас осуществляет Internet Archive. Калев Литару (Kalev Leetaru) использовал существующий модуль распознавания текста: тот сначала определяет границы иллюстраций, чтобы отбросить иллюстрации перед OCR. Но зачем материалу пропадать?

Все извлечённые иллюстрации были выровнены, кадрированы, очищены и закачаны на фотохостинг Flickr с сопровождающим текстом из книги. Таким образом, возможен полнотекстовый поиск по архиву иллюстраций Internet Archive Book Images, которые находятся в общественном достоянии.

Всего на Flickr закачают 14 млн картинок (на данный момент закачано 2,6 млн).



Галерея картинок из старых книг — очень увлекательное дело. Здесь можно найти и пейзажи, и иллюстрации по кулинарному делу, и ноты, и картинки из медицинских справочников, и старые карты. Каталог иллюстраций приглашает к своеобразному «путешествию во времени»: введите какой-нибудь термин (телефон, самолёт) — и увидите, как эта вещь выглядела раньше.





Многие картинки — это какие-то странные непонятные объекты из прошлого. Без описания и не поймёшь, что это такое.



Наверняка редакторы Википедии найдут подходящий иллюстративный материал, чтобы пополнить многие исторические статьи.

Для каждой иллюстрации указано название книги, год её издания и страница, на которой встретилась иллюстрация. Есть ссылка, чтобы прочитать книгу в онлайне (все они опубликованы на сайте Internet Archive). В рамках этого проекта оцифровано уже 600 млн страниц.

Любой желающий может делать с этими изображениями что угодно, включая использование в некоммерческих или коммерческих целях, повторную публикацию, редактирование и т.д.