Нумерация страниц.
Образец файла. Первая колонка содержит исходный текст, полученный после FineReader. Вторая – простановка номеров страниц для каждой записи. Третья – проверка совпадает ли первый символ текущей строки с первым символом следующей строки.
Дальше листаем записи и выделяем цветом строки для последующего удаления: строки с номером листа и пустые ячейки. Третья колонку используется как маркер для поиска некорректного разделения текста, если находим ошибку, исправляем ее. По сводной таблице на втором листе ищем есть ли пропуски в нумерации листов.
Завершив проверку, сохраняем значения номеров страниц и удаляем ранее выделенные строки. Добавляем колонку со сплошной нумерацией строк.
Выделение ФИО.
Образец файла. Для одного из последующих этапов, нам понадобятся фамилии, имена и отчества, разделение производится по первой запятой в тексте. Как правило ФИО находится до первой запятой, некоторые запятые проставлены ошибочно, сверяемся с оригиналом и исправляем ошибки. В некоторых записях в качестве разделителя использована точка.
Разделение на логические блоки.
Образец файла. Для начала, посмотрим на записи КП:
- СМОЛИН Сергей Григорьевич, род. 1916, г. Ижевск. Призван в Сов. Армию в 1937, Можгинский РВК. Матрос. Умер в госпитале 10 марта 1942. Похоронен: г. Ленинград.
- СНЕГОРУНКО Григорий Васильевич, род. 1924. Призван в Сов. Армию Можгинским РВК. Сержант. Умер от ран 7 авг. 1943. Похоронен: с. -з. Дубино, Курская обл.
- СОЗИН Александр Васильевич, род. 1905, пос. Пычас. Призван в Сов. Армию Пычасским РВК. Рядовой. Погиб в бою 1943.
Можно увидеть, что текст состоит из нескольких логических блоков:
- ФИО
- дата и/или место рождения, начинается со слова «род.»
- дата и/или место призыва, начинается со слова «Призван»
- воинское звание и/или место службы
- дата и/или место смерти, начинается со слов «Умер», «Погиб» или «Пропал»
- место захоронения, начинается со слова «Похоронен»
Подбирая ключевые слова, разделяем текст на логические блоки. Сначала блок "Похоронен", включаем фильтр по пустым значениям и просмативаем записи в колонке "Оригинал" в поисках нестандартных описаний места захоронения. Затем аналогично блок "Умер" и т.д. В процессе, будут находится новые ошибки в тексте, сверяясь с оригиналом, исправляем их.
Самый важный блок – "Родился", на втором листе формируем сводную таблицу по этому блоку. В соседней колонке по ПРАВСИМВ вырезаем из текста места рождения, а результат сводной таблицей помещаем на третий лист. В итоге из нескольких тысяч сочетаний год/место рождения получается всего 200-300 мест рождения.
К данному материалу не добавлено ни одного комментария.