И самое главное, мы расширили наше сообщество, включив в него людей со всего мира, которые вместе работают над повышением доступности культурных материалов. У нас теперь есть канал в Slack OCR, к которому вы можете присоединиться, если хотите (чтобы присоединиться, напишит). Мы стремимся предоставлять программное обеспечение и наборы данных для этих проектов, чтобы помочь им развиваться (руководители — Мерлийн Вайер и Дерек Фукумори).
Следующие шаги по воплощению мечты данные номера телефона Ваневара Буша, Xanadu Теда Нельсона, проекта Gutenberg Майкла Харта, Всемирной паутины Тима Бернерса-Ли, призыва Раджа Риди к всеобщему доступу ко всем знаниям (а теперь и заявления о миссии Архива Интернета):
Найти статьи в периодических изданиях и получить названия/авторов/сноски
Связывание ссылок в сносках с другими документами
Оптическое распознавание символов на балийских пальмовых листьях на основе 17 000 страниц, заполненных вручную .
Улучшение обработки страниц Tesseract для улучшения OCR и сегментации.
Улучшение создания epub-файлов, включая изображения со страниц
Улучшите OCRopus, создав обучающие наборы данных
Любая помощь здесь будет высоко оценена.
Спасибо вам, сообщества свободного и открытого ПО! Мы рады быть частью такого открытого и щедрого мира.
для исследователей и разработчиков
-
- Posts: 857
- Joined: Mon Dec 23, 2024 3:32 am