Правильная ссылка на статью:

Разумов И.К.. Реконструкция изображений зашифрованных в «Пророчествах» Нострадамуса // Историческая информатика. 2024. № 2. С. 109-121. DOI: 10.7256/2585-7797.2024.2.70737 EDN: YOSUAO URL: https://nbpublish.com/library_read_article.php?id=70737

Статья опубликована с лицензией Creative Commons Attribution-NonCommercial 4.0 International License (CC BY-NC 4.0) – Лицензия «С указанием авторства – Некоммерческая».

Читать статью

Результаты процедуры рецензирования статьи:

Читать рецензию

EDN: YOSUAO

наверх

Аннотация: Предшествующие историко-филологические комментарии к «Пророчествам» Нострадамуса, выполненные проф. Бренд’Амуром, Р.Прево, П.Гинаром, А.Пензенским, Д.Крузе привели к неожиданному выводу, что многие катрены малоинформативны в качестве предсказаний, более того, некоторые из них описывают события предшествующие моменту публикации, вызывая вопросы о мотивации предсказателя. Между тем, на фоне возросшего в первой половине XVI века интереса к развитию методов тайнописи уместно предположение о наличии скрытого сообщения в «Пророчествах». В недавних работах автора было показано, что текст «Пророчеств» содержит два вида шифра. Модифицированный алгоритм «скитала» используется, по-видимому, для изменения порядка следования катренов и присвоения им некоторых дат реального времени. Кроме того, в текст незаметно встроен большой графический шифр, так что определенные слова или буквы, при отображении в виде пятен на плоскости в координатах «номер центурии – номер катрена» приводят к изображениям человеческих лиц. Вероятно, эти рисунки служат иллюстрациями к предсказательному тексту, однако невысокое качество полученных изображений и склонность автора шифра к сюрреализму не позволяют идентифицировать персонажей. Целью данной работы является предложить новый метод обработки исходных данных для получения более качественных изображений, названный методом «гладкой сборки», а также обсудить графический шифр Нострадамуса в историческом контексте. Из результатов проведенного исследования следует вывод, что графический шифр Нострадамуса был уникальным в своем роде экспериментом по скрытому встраиванию изображений в текст и имел заметную научную ценность для развития стеганографии в XVI веке. Это позволяет предполагать, что кроме предсказательной мотивации (или вместо нее), автор шифра преследовал вполне научную цель – создание нового перспективного метода скрытой передачи информации. Подгонка слов под параметры изображений могла оказаться одной из причин туманности содержания текста, так что смысл некоторых катренов в том, что они служат строительным материалом в графическом шифре. В заключительной части статьи обсуждается доступная в XVI веке схема физической реализации такого шифра, не требующая проведения трудоемких расчетов.

Ключевые слова: Нострадамус, пророчества, катрены, стеганография, криптография, разреженные изображения, графический шифр, скитала, реконструкция, камера обскура

Abstract: Previous historical and philological commentaries on Nostradamus' Prophecies by Prof. Brind'Amour, R. Prevost, P. Guinard, A. Penzensky, and D. Crouzet have led to the unexpected conclusion that many quatrains are uninformative as predictions; moreover, some of them describe events preceding the moment of publication, raising questions about the predictor's motivation. Against the background of the increased interest in the development of cryptology methods in the first half of the sixteenth century, it is appropriate to assume the existence of a hidden message in the Prophecies. Recent work by the author has shown that the text of the Prophecies contains two types of cipher. The modified algorithm "scytale" is used to change the sequence of quatrains and assign them specific dates in real time. Additionally, a sizeable graphical cipher is invisibly embedded in the text so that particular words or letters, mapped as stains on a plane in the coordinates "century number” or “quatrain number," lead to images of human faces. These images likely serve as illustrations of the prophetic text; however, their low quality and the cipher author's tendency toward surrealism make it challenging to identify the characters. This work proposes a new method for processing the raw data to obtain higher-quality images, called the "smooth assembly" method, and to discuss Nostradamus' graphical cipher in a historical context. The study's results suggest that Nostradamus' graphical cipher was a unique experiment in embedding images in text and had significant scientific value for developing steganography in the sixteenth century. This leads to the assumption that, in addition to predictive motivation (or instead of it), the cipher author pursued a purely scientific goal: creating a new promising method of covert information transmission.

Keywords: reconstruction, scytale, graphic cipher, sparse images, cryptography, steganography, quatrains, prophecies, Nostradamus, camera obscura

Правильная ссылка на статью:

Андрейчева М.Ю.. Проблемы и перспективы электронной научной публикации "Повести временных лет" // Историческая информатика. 2024. № 1. С. 88-107. DOI: 10.7256/2585-7797.2024.1.69789 EDN: PHJWFM URL: https://nbpublish.com/library_read_article.php?id=69789

Статья опубликована с лицензией Creative Commons Attribution-NonCommercial 4.0 International License (CC BY-NC 4.0) – Лицензия «С указанием авторства – Некоммерческая».

Читать статью

Результаты процедуры рецензирования статьи:

Читать рецензию

EDN: PHJWFM

наверх

Аннотация: В статье рассматриваются проблемы разработки электронных научных публикаций источников и создания на их базе электронных стандартов. В качестве опытного образца для такого издания М. Ю. Андрейчева предлагает обратиться к "Повести временных лет" – нарративному памятнику, который с одной стороны наилучшим образом может продемонстрировать особенности целого комплекса источников (летописные своды), а с другой стороны, достаточно хорошо изучен, чтобы показать на его примере детальную проработку лингвистических, источниковедческих и текстологических возможностей создаваемой модели электронной публикации. В своей работе автор знакомит читателей с образом портала, посвященного электронному изданию начальной летописи, в который вошли следующие базовые разделы: Главная страница; Списки и переводы; Комментарии; Источники; Текстология; Историография. Основой электронной публикации должен стать гипертекст Повести, то есть текст, включающий систему внутренних гиперссылок, позволяющих наглядно репрезентовать его списки, переводы и оригинальный рукописный вид, его стратификацию в текстологических стеммах, а также текстовые и семантические пересечения с другими памятниками изучаемой эпохи. Электронная научная публикация "Повести временных лет" предстанет в виде открытой семантической сети, контент которой будет обновляться по мере дальнейшего изучения памятника. В дальнейшем на ее базе может быть создан индексируемый электронный научный журнал, в котором будут публиковаться работы, посвященные исследованию ПВЛ и истории Древней Руси. В итоге, электронная научная публикация Повести временных лет призвана стать полноценной научной платформой, которая выведет изучение летописного текста на новый исследовательский и технологический уровень. После создания рабочей модели ее можно будет апробировать и на других видах источников. Итогом работы над проектом может стать создание конструктора электронных публикаций различного уровня (научных, научно-популярных и проч.).

Ключевые слова: Повесть временных лет, летописные своды, Древняя Русь, электронная публикация источника, Цифровая история, гипертекст, гиперссылка, источниковедение, текстология, база данных

Abstract: The article discusses the problems of developing electronic scientific publications of sources and creating electronic standards based on them. As a sample for such a publication, M. Yu. Andreicheva suggests turning to the "Tale of Bygone Years" – a narrative monument that, on the one hand, can best demonstrate the features of a whole complex of sources (chronicles), and on the other hand, has been studied well enough to show using his example, a detailed study of the linguistic, source study and textual capabilities of the created electronic publishing model. In his work, the author introduces the image of a portal dedicated to the electronic edition of the initial chronicle. The basis of the publication should be the hypertext of the Tale, that is, a text that includes a system of internal hyperlinks that make it possible to visually represent its lists, translations and original handwritten form, its stratification in textological stems, as well as textual and semantic intersections with other monuments of the era being studied. The electronic scientific publication of "The Tale of Bygone Years" will appear in the form of an open semantic network, the content of which will be updated as the monument is further studied. In the future, an indexed electronic scientific journal may be created on its basis, in which works devoted to the study of PVL and the history of Ancient Rus' will be published. Ultimately, electronic scientific publishing around the world has become a full-fledged scientific platform that takes the study of chronicle text to a new research and technological level. After creating a working model, it can be tested on other types of sources. The result of work on the project may be the creation of a designer for electronic publications of various levels (scientific, popular science, etc.).

Keywords: database, textual criticism, source study, hyperlink, Digital history, hypertext, electronic publication of the source, Ancient Rus', chronicles, The Tale of Bygone Years

Правильная ссылка на статью:

Семенов А.С., Кабаев Д.А., Черняева Л.Л., Чернов С.З., Гончарова Н.Н.. Данные о древней ДНК с территории клязьминских поселений XII века. Часть 2 // Историческая информатика. 2023. № 4. С. 30-36. DOI: 10.7256/2585-7797.2023.4.68943 EDN: TYEJKY URL: https://nbpublish.com/library_read_article.php?id=68943

Статья опубликована с лицензией Creative Commons Attribution-NonCommercial 4.0 International License (CC BY-NC 4.0) – Лицензия «С указанием авторства – Некоммерческая».

Читать статью

Результаты процедуры рецензирования статьи:

Читать рецензию

EDN: TYEJKY

наверх

Аннотация: В работе описаны результаты определения гаплогрупп двух древних захоронений XII века со среднего течения Клязьмы. Полученные данные позволяют определить Y-гаплогруппу и митогаплогруппу по маркерам, выделенным в исследовании. В статье описывается применение методов биоинформатики и полученный результат, который с высокой вероятностью определяет Y-гаплогруппу I1-Z58 захоронения №26 и митогаплогруппу H1-146C и вероятный субклад H1m1 захоронения №25. Данная работа подводит итог начальному этапу исследований, предпринятому в 2019-2020 годах, и продолженному в других работах авторского коллектива. Часть результатов была опубликована, митоДНК из захоронения №25 публикуется впервые. Результат пополняет серию ДНК-данных из описанной группы захоронений с древних клязьминских поселений, опубликованных авторами ранее. Современные технологии позволяют качественно извлекать ДНК и тестировать ее различными методами, включая определение гаплогруппы Y-хромосомы и митохондриальной ДНК. В статье приведены основные параметры используемых технологических инструментов. В статье приведены результаты исследования, проведенного в 2019-2020 годах. Первые свидетельства присутствия митохондриальной гаплогруппы H1-146C (вероятно, H1m1) из захоронения №25 и Y-гаплогруппы I1-Z58 из захоронения №26 среди клязьминского населения Северо-Восточной Руси в XII веке не только подтверждают наличие митохондриальной гаплогруппы H1 на средневековых русских земель (населенных потомками восточных славян), но и указывают, что определенное генетическое единство с западными частями славянского ареала могло в то время существовать (поскольку наиболее серьезные концентрации I1-Z58 и присутствие H1m1 наблюдаются в западной части славянского ареала). Вывод об отнесении митогаплогруппы к H1 был сделан на базе сочетания CRS в HVR1 и наличия мутации 263G в HVR2. Согласно таблице определяющих мутаций FTDNA, мутация 146С указывает на ветвь H1m1.

Ключевые слова: палео-ДНК, STR-маркеры Y-хромосомы, гаплогруппы, секвенирование, секвенирование ДНК, ДНК тест, палеогенетика, ДНК - гаплогруппа, древние ДНК, ДНК

Abstract: The paper describes the results of determining the haplogroups of two ancient burials of the 12th century from the middle reaches of the Klyazma. The data obtained make it possible to determine the Y-haplogroup and mitohaplogroup using the markers identified in the study. The article describes the using of bioinformatics methods and the result obtained. The result with a high probability determines the Y-haplogroup I1-Z58 of burial No. 26 and the mitochondrial haplogroup H1-146C (highly probable, H1m1) of burial No. 25. This work summarizes the initial stage of research undertaken in 2019-2020, and continued in other works by the team of authors. Some of the results have been published; mitoDNA from burial No. 25 is published for the first time and completes the series of DNA data from the described group of burials from ancient Klyazma settlements, published by the authors earlier. Modern technologies make it possible to extract DNA and test it using various methods, including determination of the Y-chromosome haplogroup and mitochondrial DNA. The article presents the results of the study conducted in 2019-2020 years. The first evidence of the presence of mitochondrial haplogroup H1-146C (burial No. 25) and Y-haplogroup I1-Z58 (burial No. 26) among the Klyazma population of North-Eastern Russia in the 12th century not only confirms the presence of Y-haplogroup H1 in medieval Russian lands (inhabited descendants of the Eastern Slavs), but also indicates that some genetic unity with the western parts of the Slavic area might exist that time.

Keywords: ancient DNA, DNA haplogroup, paleogenetics, DNA test, DNA sequencing, sequencing, haplogroups, STR markers of the Y chromosome, paleo DNA, DNA

Правильная ссылка на статью:

Разинков С.Л.. Опыт создания базы данных «Образ учащихся учебных заведений Государственных трудовых резервов Свердловской области в фотодокументах (1940-50-е гг.)» // Историческая информатика. 2023. № 4. С. 37-51. DOI: 10.7256/2585-7797.2023.4.69120 EDN: WDUWFX URL: https://nbpublish.com/library_read_article.php?id=69120

Статья опубликована с лицензией Creative Commons Attribution-NonCommercial 4.0 International License (CC BY-NC 4.0) – Лицензия «С указанием авторства – Некоммерческая».

Читать статью

Результаты процедуры рецензирования статьи:

Читать рецензию

EDN: WDUWFX

наверх

Аннотация: Целью базы данных является реконструкция «парадного» и «непарадного» портрета учащихся государственных трудовых резервов (на примере визуальных образов учащихся учебных заведений Свердловской области 1940-50-х гг.). Анализ сведений, содержащихся в базе данных, в перспективе позволит ответить на ряд исследовательских вопросов и выявить важные характеристики визуального образа и социального портрета учащихся: виды деятельности, в том числе различные стороны трудовой и учебной деятельности, «телесная активность» учащихся; акты человеческой интеракции и невербальной коммуникации (жесты, мимика, позы тела и т.п.); используемые объекты материальной культуры; повседневные стереотипы поведения, реконструируемые посредством серии фотографий; «нетипичный опыт», описание девиантных групп учащихся, нерегламентированной одежды, нетипичной манеры поведения. При создании БД учитывались концепции визуальных образов в исторических исследованиях Л.Н. Мазур, цифровизации визуальной антропологии Д. Цейтлина, невербальной семиотики Г. Крейдлина, "плотного описания" К. Гирца. Результатами исследования являются: 1) разработка и описание структуры базы данных, позволяющей учесть особенности визуальных источников, направленной на реконструкцию «парадного» и «непарадного» портрета учащихся учебных заведений Свердловской области в 1940-50-х гг. посредством детального описания позы, жестов, визуального поведения, пространственного взаимодействия, одежды и обуви персон, изображенных на фотографии; 2) первичный анализ 145 фотографий из официальных альбомов 4 учебных заведений, посвященных описанию итогов их участия во Всесоюзном социалистическом соревновании в 1943-1945 гг.; 3) более точная идентификация и систематизация внешних поведенческих практик учащихся на основе БД; 4) демонстрация возможностей детального описания изображений средствами БД для выявления отдельных сторон «непарадного портрета» учащихся. Результаты исследования могут использоваться при исследовании повседневности и социокультурного портрета учащейся молодежи в советский период.

Ключевые слова: ремесленные училища, школы ФЗО, образ, внешний вид, невербальная семиотика, фотодокументы, трудовые резервы, база данных, Свердловская область, профессионально-техническое образование

Abstract: The purpose of the database is to reconstruct the "ceremonial" and "non-official" portraits of students of state labor reserves (using the example of visual images of students of educational institutions of the Sverdlovsk region in the 1940s and 50s). The analysis of the information contained in the database will in the future allow answering a number of research questions and identify important characteristics of the visual image and social portrait of students: types of activities, including various aspects of work and educational activities, "bodily activity" of students; acts of human interaction and non-verbal communication (gestures, facial expressions, body poses, etc.); objects of material culture used; everyday stereotypes of behavior reconstructed through a series of photographs; "atypical experience", description of deviant groups of students, irregular clothes, atypical behavior. When creating the database, the concepts of visual images in L.N. Mazur's historical research, D. Zeitlin's digitalization of visual anthropology, G. Kreidlin's nonverbal semiotics, and K. Girtz's "dense description" were taken into account. The results of the study are: 1) development and description of the database structure that allows taking into account the features of visual sources aimed at reconstructing the "ceremonial" and "non-official" portraits of students of educational institutions of the Sverdlovsk region in the 1940s and 50s through a detailed description of the poses, gestures, visual behavior, spatial interaction, clothes and shoes of the persons depicted in the photo; 2) primary analysis of 145 photographs from the official albums of 4 educational institutions devoted to the description of the results of their participation in the All-Union Socialist Competition in 1943-1945; 3) more accurate identification and systematization of external behavioral practices of students based on the database; 4) demonstration of the possibilities of detailed description of images by means of the database to identify individual sides of the "non-official portrait" of students. The results of the study can be used in the study of everyday life and socio-cultural portrait of students in the Soviet period.

Keywords: factory-workshop schools, vocational schools, Sverdlovsk region, technical and vocational education, appearance, image, nonverbal semiotics, photographic documents, Labor Reserves, database

Правильная ссылка на статью:

Соколов Ю.В.. Дискуссии о российской революции 1917 г. в Сети: методические подходы к исследованию веб-форумов как исторического источника // Историческая информатика. 2023. № 2. С. 19-33. DOI: 10.7256/2585-7797.2023.2.40601 EDN: AFQXIL URL: https://nbpublish.com/library_read_article.php?id=40601

Статья опубликована с лицензией Creative Commons Attribution-NonCommercial 4.0 International License (CC BY-NC 4.0) – Лицензия «С указанием авторства – Некоммерческая».

Читать статью

Результаты процедуры рецензирования статьи:

Читать рецензию

EDN: AFQXIL

наверх

Аннотация: Предметом исследования является методика анализа электронного контента социальных сетей (форумов) как исторического источника. В качестве материала для анализа использовано обсуждение революции 1917 г. в период столетнего юбилея этого исторического события. Целью исследования являлась апробация подходов к методике работы с большими массивами сетевых текстов, и возможном совмещении двух подходов к работе с онлайн-текстами — средств количественного анализа ("дальнее чтение") и традиционных приёмов работы с историческим текстом ("медленное чтение"). В рамках «дальнего чтения» используется тематическое моделирование при помощи алгоритма LDA (латентное размещение Дирихле) и LSA (латентно-семантический анализ) в среде программирования R в программе R studio (версия 4.2.1). В ходе «медленного чтения» мы анализируем весь объём текста непосредственно. Новизна исследования заключается в применении к источникам тематического моделирования в среде программирования R в совокупности с классическими методами анализа исторических текстов. В рамках исследования апробирована методика анализа контента социальных сетей (форумов), ориентированная на существенные массивы текста, которые физически невозможно прочитать полностью или хотя бы в значительной части, пользуясь исключительно традиционными средствами взаимодействия исследователя с корпусом источников. Предложен пошаговый алгоритм исследования, в рамках которого исследователю нужно проанализировать текст методами «дальнего чтения», выявив темы тексты, состоящие из термов (слов). Затем используя эти ключевые слова следует найти соответствующие фрагменты текста, в которых выявленная тема обсуждалась наиболее активно, и проанализировать фрагменты подробнее с использованием традиционных приемов работы с текстовым источником. Предложен возможный способ улучшения качества выявления необходимых исследователю тем в социальных сетях и на форумах алгоритмом LDA, а именно предварительное дробление большого текста и последующий анализ фрагментов методом LDA как отдельных документов.

Ключевые слова: историческая информатика, тематическое моделирование, латентное размещение Дирихле, латентно-семантический анализ, дальнее чтение, онлайн-форумы, цифровые источники, публичная история, веб-форум, онлайн-текст

Abstract: The subject of the study is a methodology for analyzing the electronic content of social networks (forums) as a historical source. The discussion of the revolution of 1917 during the centenary of this historical event was used as a material for analysis. The aim of the study was to test approaches to the methodology of working with large arrays of online texts, and the possible combination of two approaches to working with online texts - quantitative analysis tools (distant reading) and traditional methods of working with historical text (slow reading). As part of the "distant reading", thematic modeling is used using the LDA (latent Dirichlet placement) and LSA (latent semantic analysis) algorithm in the R programming environment in the R studio program (version 4.2.1). During the "slow reading" we analyze the entire volume of the text directly.The novelty of the research lies in the application of thematic modeling to sources in the R programming environment in conjunction with classical methods of analyzing historical texts. Within the framework of the study, a methodology for analyzing the content of social networks (forums) has been tested, focused on substantial arrays of text that are physically impossible to read in full or at least in a significant part, using exclusively traditional means of interaction of the researcher with the corpus of sources. A step-by-step research algorithm is proposed, in which the researcher needs to analyze the text by "distant reading" methods, identifying the topics of texts consisting of terms (words). Then, using these keywords, you should find the relevant text fragments in which the identified topic was discussed most actively, and analyze the fragments in more detail using traditional methods of working with a text source. A possible way to improve the quality of identifying topics necessary for the researcher in social networks and forums by the LDA algorithm is proposed, namely, preliminary splitting of a large text and subsequent analysis of fragments by the LDA method as separate documents.

Keywords: public history, historical information science, thematic modeling, latent Dirichlet placement, latent semantic analysis, distant reading, online forums, digital sources, web forum, online text

Правильная ссылка на статью:

Галушко И.Н.. Применение тематического моделирования для оптимизации процесса поиска релевантных исторических документов (на примере биржевой прессы начала XX в.) // Историческая информатика. 2023. № 2. С. 129-144. DOI: 10.7256/2585-7797.2023.2.43466 EDN: SKBPNS URL: https://nbpublish.com/library_read_article.php?id=43466

Статья опубликована с лицензией Creative Commons Attribution-NonCommercial 4.0 International License (CC BY-NC 4.0) – Лицензия «С указанием авторства – Некоммерческая».

Читать статью

Результаты процедуры рецензирования статьи:

Читать рецензию

EDN: SKBPNS

наверх

Аннотация: Ключевой задачей представленной статьи является апробация методики анализа информационного потенциала коллекции исторических источников с помощью тематического моделирования. Некоторые современные коллекции оцифрованных исторических материалов насчитывают десятки тысяч документов, и на уровне отдельного исследователя охват всего доступного наследия представляется затруднительным. Вслед за рядом исследователей мы предполагаем, что тематическое моделирование может стать удобным инструментом предварительной оценки содержания коллекции исторических документов; инструментом отбора только тех документов, в которых присутствует информация, релевантная поставленным исследовательским задачам. В нашем случае в качестве основной коллекции исторических документов была выбрана подборка газеты «Биржевые ведомости». На данном этапе мы можем подтвердить, что в рамках нашего исследования применение тематического моделирования оказалось продуктивным решением для оптимизации процесса поиска исторических документов в объемной коллекции оцифрованных исторических материалов. В то же время необходимо подчеркнуть, что в нашей работе тематическое моделирование применялось исключительно как прикладной инструмент ускорения поиска и первичной оценки информационного потенциала коллекции документов через анализ выделенных топиков. Наш опыт показал, что по крайней мере для «Биржевых ведомостей» тематическое моделирование с использованием LDA не позволяет делать выводы с позиции применяемой нами методологии содержательного анализа. Данные наших моделей слишком фрагментарны, их можно использовать только для первичной оценки тематик информации, содержащейся в источнике.

Ключевые слова: поиск исторических документов, исторические газеты, распознавание исторических документов, обработка естественного языка, поведенческие финансы, Биржевые ведомости, латентное размещение Дирихле, тематическое моделирование, машинное обучение, фондовый рынок

Abstract: The key task of the presented article is to test how we can analyze the information potential of a historical sources collection by using thematic modeling. Some modern collections of digitized historical materials number tens of thousands of documents, and at the level of an individual researcher, it is difficult to cover available funds. Following a number of researchers, we suggest that thematic modeling can become a convenient tool for preliminary assessment of the content of a collection of historical documents; can become a tool for selecting only those documents that contain information relevant to the research tasks. In our case, the Birzhevye Vedomosti newspaper was chosen as one of the main collection of historical documents. At this stage, we can confirm that in our study, the use of topic modeling proved to be a productive solution for optimizing the process of searching for historical documents in a large collection of digitized historical materials. At the same time, it should be emphasized that in our work topic modeling was used exclusively as an applied tool for primary assessment of the information potential of a documents collection through the analysis of selected topics. Our experience has shown that, at least for Birzhevye Vedomosti, topic modeling with LDA does not allow us to draw conclusions from the standpoint of our content analysis methodology. The data of our models are too fragmentary, it can only be used for the initial assessment of the topics describing the information contained in the source.

Keywords: machine learning, historical newspapers, searching for historical documents, recognition of historical sources, Natural language processing, Birzhevye vedomosti, behavioral finance, Latent Dirichlet allocation, topic modeling, stock market

Правильная ссылка на статью:

Пригодич Н.Д., Коробко С.С.. Применение программных методов для автоматизированной обработки источников личного происхождения // Историческая информатика. 2023. № 1. С. 1-9. DOI: 10.7256/2585-7797.2023.1.40376 EDN: OJJZUU URL: https://nbpublish.com/library_read_article.php?id=40376

Статья опубликована с лицензией Creative Commons Attribution-NonCommercial 4.0 International License (CC BY-NC 4.0) – Лицензия «С указанием авторства – Некоммерческая».

Читать статью

Результаты процедуры рецензирования статьи:

Читать рецензию

EDN: OJJZUU

наверх

Аннотация: Предметом настоящего исследования являются программные методы автоматизированной предобработки исторических источников и разработка эффективного решения задач при работе с источниками личного происхождения. В рамках статьи проанализировано актуальное положение в области использования современных программных методов. Авторы демонстрируют основной круг аргументов, по которым такие исторические источники с технической точки зрения необходимо рассматривать отдельно. Проведен методологический разбор особенностей применения оптического распознания символов на основе предобработанных данных. Особое внимание уделено преимуществам и ключевым параметрам эффективности конечного результата работы при использовании автоматизированной преодобработки текстов, в том числе при дальнейшем использовании OCR-методов. Научная новизна исследования заключается в предложении и подробном описании программного решения сложившейся проблемы на основе методов машинного обучения. Разработанная программа имеет три фазы работы с цифровыми копиями источников личного происхождения. В ее основе заложены использование библиотеки OpenCV и решения ряда задач с помощью преобразования Хафа. Опираясь на общий анализ исследования мы можем выделить основные преимущества автоматизированной предобработки сканированных документов: сокращение времени, повышение точности, борьба с искажениями и оптимизация процесса. Представленные результаты успешной апробации разработанного решения позволяют судить о возможных сферах ее эффективного применения.

Ключевые слова: Источники личного происхождения, машинное обучение, искусственный интеллект, библиотека OpenCV, преобразование Хафа, предобработка, метод OCR, распознание, архивация, оцифровка

Abstract: The subject of this research is software methods of automated preprocessing of historical sources and the development of effective solutions to problems when working with sources of personal origin. The article analyzes the current situation in the use of modern software methods. The authors demonstrate the main range of arguments for which such historical sources from a technical point of view should be considered separately. A methodological analysis of the features of the application of optical character recognition based on preprocessed data is carried out. Special attention is paid to the advantages and key parameters of the effectiveness of the final result of work when using automated text processing, including the further use of OCR methods. The scientific novelty of the research lies in the proposal and detailed description of a software solution to the current problem based on machine learning methods. The developed program has three phases of working with digital copies of sources of personal origin. It is based on the use of the OpenCV library and solving a number of problems using the Hough transform. Based on the general analysis of the study, we can highlight the main advantages of automated preprocessing of scanned documents: reducing time, improving accuracy, combating distortion and optimizing the process. The presented results of successful testing of the developed solution allow us to judge the possible areas of its effective application.

Keywords: archiving, recognition, method OCR, preprocessing, Hough transform, artificial intelligence, OpenCV library, machine learning, Sources of personal origin, digitization

Правильная ссылка на статью:

Галушко И.Н.. Корректировка результатов OCR-распознавания текста исторического источника с помощью нечетких множеств (на примере газеты начала XX века) // Историческая информатика. 2023. № 1. С. 102-113. DOI: 10.7256/2585-7797.2023.1.40387 EDN: OCFBSP URL: https://nbpublish.com/library_read_article.php?id=40387

Статья опубликована с лицензией Creative Commons Attribution-NonCommercial 4.0 International License (CC BY-NC 4.0) – Лицензия «С указанием авторства – Некоммерческая».

Читать статью

Результаты процедуры рецензирования статьи:

Читать рецензию

EDN: OCFBSP

наверх

Аннотация: Наша статья посвящена попытке применения современных методов NLP для оптимизации процесса распознавания текста исторических источников. Любой исследователь, решивший воспользоваться инструментами распознавания отсканированных текстов, столкнется с рядом ограничений точности конвейера (последовательности операций распознавания). Даже наиболее качественно обученные модели могут давать существенную ошибку по причине неудовлетворительного состояния дошедшего до нас источника: порезы, изгибы, кляксы, стертые буквы – всё это мешает качественному распознаванию. Наше предположение состоит в том, что, используя заранее заданный набор слов, маркирующих присутствие интересующей нас темы, с помощью модуля нечетких множеств (Fuzzy sets) из NLP-библиотеки SpaCy, мы сможем восстановить по шаблонам те слова, которые по итогам процедуры распознавания оказались распознаны с ошибками. Для проверки качества процедуры восстановления текста на выборке из 50 номеров газеты «Биржевые ведомости» мы посчитали оценки количества слов, которые бы не вошли в семантический анализ из-за неправильного распознавания. Все метрики были посчитаны также с использованием паттернов нечетких множеств. Оказалось, что в среднем на номер «Биржевых ведомостей» приходится 938.9 слов, маркирующих тему нашего исследования – торговые и финансовые операции с ценными бумагами. Из них изначально правильно распознаются в среднем 87.2% слов. Примерно 119.6 слов (в среднем на 50 номеров) содержат опечатки, связанные с некорректным распознаванием. Благодаря использованию алгоритмов нечетких множеств нам удалось эти слова восстановить и включить в семантический анализ. Мы считаем, что восполнение 12.8% слов, потенциально относящихся к изучаемой теме – это хороший результат, существенно повышающий качество дальнейшего семантического анализа текста методами компьютерного моделирования.

Ключевые слова: расстояние Левенштейна, Биржевые ведомости, предобработка текста, обработка естественного языка, нечеткие множества, исправление OCR, распознавание исторических источников, контент-анализ, тематическое моделирование, исторические газеты

Abstract: Our article is presenting an attempt to apply NLP methods to optimize the process of text recognition (in case of historical sources). Any researcher who decides to use scanned text recognition tools will face a number of limitations of the pipeline (sequence of recognition operations) accuracy. Even the most qualitatively trained models can give a significant error due to the unsatisfactory state of the source that has come down to us: cuts, bends, blots, erased letters - all these interfere with high-quality recognition. Our assumption is to use a predetermined set of words marking the presence of a study topic with Fuzzy sets module from the SpaCy to restore words that were recognized with mistakes. To check the quality of the text recovery procedure on a sample of 50 issues of the newspaper, we calculated estimates of the number of words that would not be included in the semantic analysis due to incorrect recognition. All metrics were also calculated using fuzzy set patterns. It turned out that approximately 119.6 words (mean for 50 issues) contain misprints associated with incorrect recognition. Using fuzzy set algorithms, we managed to restore these words and include them in semantic analysis.

Keywords: topic modeling, content analysis, Levenshtein distance, Birzhevye vedomosti, text preprocessing, NLP (natural language processing), fuzzy sets, OCR correction, recognition of historical sources, historical newspapers

Правильная ссылка на статью:

Парфенов В.А.. Лазерное 3D-сканирование в оцифровке, реконструкции и копировании скульптурных памятников // Историческая информатика. 2023. № 1. С. 114-124. DOI: 10.7256/2585-7797.2023.1.40440 EDN: ODGXGC URL: https://nbpublish.com/library_read_article.php?id=40440

Статья опубликована с лицензией Creative Commons Attribution-NonCommercial 4.0 International License (CC BY-NC 4.0) – Лицензия «С указанием авторства – Некоммерческая».

Читать статью

Результаты процедуры рецензирования статьи:

Читать рецензию

EDN: ODGXGC

наверх

Аннотация: Данная статья посвящена применению технологии лазерного 3D-сканирования для решения актуальных задач современной музейной работы. Показана возможность использования данной технологии для оцифровки объектов культурно-исторического наследия с целью их документирования, мониторинга состояния сохранности, реставрации, виртуальной реконструкции и репродуцирования. Приведены результаты практических работ по созданию высокоточных физических копий мраморных скульптур из музеев Санкт-Петербурга в результате комбинированного использования 3D-сканирования и фрезерных камнеобрабатывающих станков с числовым программным управлением. Кроме того, показана перспективность применения лазерных аддитивных технологий для реставрации и копирования исторических памятников. Приведенные в статье результаты работ по созданию копии мраморной итальянской скульптуры XVIII века «Примавера» из коллекции музея-заповедника «Царское село» являются первым опытом применения лазерного бесконтактного метода копирования скульптурных памятников в России. Данный подход был предложен и реализован автором данной статьи в кооперации с петербургской реставрационной компанией ООО «Ресстрой» и итальянскими партнерами. Кроме того, также впервые в нашей стране, автор продемонстрировал возможность применения технологии лазерного 3D-сканирования для мониторинга экстерьерных памятников и применения лазерных аддитивных технологий для реставрации и реконструкции поврежденных и полностью утраченных объектов культурно-исторического наследия.

Ключевые слова: Лазерное трехмерноу сканирование, культурно-историческое наследие, скульптурные памятники, документирование, мониторинг, оцифровка, реставрация, реконструкция, копирование, лазерные аддитивные технологии

Abstract: This article is devoted to the application of 3D laser scanning technology to solve the urgent problems of modern museum work. The possibility of using this technology for digitizing cultural and historical heritage objects for the purpose of documenting them, monitoring the state of preservation, restoration, virtual reconstruction, as well as creating copies of them is shown. The results of practical work on the creation of high-precision copies of marble sculptures from the museums of St. Petersburg as a result of the combined use of 3D scanning and milling stone processing machines with numerical control are presented. In addition, the prospects of using laser additive technologies for the restoration and replication of historical monuments are shown.

Keywords: digitising, monitoring, documentation, sculptural monuments, cultural and historical heritage, laser three-dimensional scanning, restoration, reconstruction, replication, laser additive technologies

Правильная ссылка на статью:

Базарова Т.А., Проскурякова М.Е.. Автографы Петра I: чтение технологиями искусственного интеллекта и создание электронного архива // Историческая информатика. 2022. № 4. С. 179-190. DOI: 10.7256/2585-7797.2022.4.39224 EDN: QMWYXE URL: https://nbpublish.com/library_read_article.php?id=39224

Статья опубликована с лицензией Creative Commons Attribution-NonCommercial 4.0 International License (CC BY-NC 4.0) – Лицензия «С указанием авторства – Некоммерческая».

Читать статью

Результаты процедуры рецензирования статьи:

Читать рецензию

EDN: QMWYXE

наверх

Аннотация: Статья посвящена современным цифровым методам работы с рукописным наследием Петра I. Они были применены в рамках реализации научного проекта «Автографы Петра Великого: Чтение технологиями искусственного интеллекта». Проект был инициирован Российским историческим обществом и реализован специалистами Санкт-Петербургского института истории РАН, ПАО «Сбербанк». В статье описана методика подготовки набора данных для создания программы машинного чтения рукописей Петра I («Digital Петр»). Особый акцент авторами сделан на выработанных в ходе проекта принципах передачи исторического текста. Кроме того, проанализированы случаи использования Петром I небуквенных символов и вызванные этим сложности при формировании набора данных. В статье также отражены результаты работы созданного алгоритма и определены варианты организации петровского текста, которые снижают качество распознавания. Авторами также уделено внимание электронному архиву «Автографы Петра I», который стал продолжением проекта о машинном чтении рукописей первого русского императора. В архиве, над которым продолжается работа, представлены цифровые копии автографов Петра I, результаты их распознавания программой Digital Петр, а также научные публикации этих уникальных исторических источников. Интернет-портал "Автографы Петра I" связан с ресурсом: "Биохроника Петра Великого день за днем" (создан на сайте НИУ ВШЭ). Связь двух сайтов открывает перед исследователями дополнительные возможности: каждый оцифрованный автограф вводится в исторический контекст.

Ключевые слова: Преобразование текстов, Обработка цифровых архивов, Машинное чтение, Электронный архив, Петр I, Палеография, Компьютерное зрение, Digital Петр, Автографы Петра I, Биохроника Петра Великого

Abstract: The article is devoted to modern digital methods of working with the handwritten heritage of Peter I. They were applied within the framework of the scientific project "Autographs of Peter the Great: Reading by artificial intelligence technologies". The project was initiated by the Russian Historical Society and implemented by specialists of the St. Petersburg Institute of History of the Russian Academy of Sciences, Sberbank PJSC. The article describes the methodology of preparing a data set for creating a program for machine reading of the manuscripts of Peter the Great ("Digital Peter"). Special emphasis is placed by the authors on the principles of transcribing of the historical text developed during the project. In addition, the cases of the use of non-letter characters by Peter I and the difficulties caused by this in the formation of a data set are analyzed. The article also reflects the results of the created algorithm and identifies variants of the organization of the text of Peter I, which reduce the quality of recognition. The authors also paid attention to the electronic archive "Autographs of Peter I", which became a continuation of the project on machine reading of the manuscripts of the first Russian emperor. The archive, which is being worked on, contains digital copies of Peter's autographs, the results of their recognition by the Digital Peter program, as well as scientific publications of these unique historical sources. The Internet portal "Autographs of Peter I" is associated with the resource: "Biochronics of Peter the Great day by day" (created on the HSE website). The connection of the two sites opens up additional opportunities for researchers: each digitized autograph is introduced into a historical context.

Keywords: Data preparation, Autographs of Peter the Great, Digital Peter, Computer vision, Paleography, Peter I, Electronic archive, Machine reading, Processing of digital archives, Biochronics of Peter the Great

Правильная ссылка на статью:

Латонов В.В., Латонова А.В.. Применение теории самоорганизованной критичности к анализу либеральной повестки в прессе 1815-1825 гг. // Историческая информатика. 2022. № 3. С. 156-165. DOI: 10.7256/2585-7797.2022.3.38752 EDN: DSJVGG URL: https://nbpublish.com/library_read_article.php?id=38752

Статья опубликована с лицензией Creative Commons Attribution-NonCommercial 4.0 International License (CC BY-NC 4.0) – Лицензия «С указанием авторства – Некоммерческая».

Читать статью

Результаты процедуры рецензирования статьи:

Читать рецензию

EDN: DSJVGG

наверх

Аннотация: Предметом исследования в настоящей работе является либеральная повестка в российской прессе преддекабристского периода. Объектом исследования являются газеты, издававшиеся в этот период. Новизна работы заключается в том, что в предложенном исследовании проведен поиск розового шума в данных, которые были получены из прессы первой четверти XIX века. В работе показано, что общественное сознание этого периода находилось в состоянии самоорганизованной критичности. Ранее состояние самоорганизованной критичности удавалось найти лишь в системах, возникавших в конце XIX века или позже. Трудность рассмотренной в работе проблемы заключается в том, что для столь раннего исторического периода почти не имеется массовых источников, а среди имеющихся очень немногие поддаются формализации. Новизна проведенного исследования заключается в применении научного инструмента теории самоорганизованной критичности к данным, имеющим истоки в первой четверти XIX века. Основной вывод, сделанный авторами статьи, заключается в том, что общественное сознание в преддекабристский период находилось в состоянии самоорганизованной критичности. Для проведения анализа была собрана статистика публикаций в газетах и журналах, которые служили отражением либеральной повестки, актуальной для периода генезиса декабристов. В работе показано, что последовательность публикаций по либеральным информационным поводам в российской прессе в период 1815-1825 гг. содержит розовый шум. Для его определения в динамическом ряду использовался анализ Фурье.

Ключевые слова: либеральная повестка, либерализм, пресса, сми, газеты, эпоха Александра I, анализ Фурье, самоорганизованная критичность, статистика, розовый шум

Abstract: The subject of the research in this paper is the liberal agenda in the Russian press of the pre-Decabrist period. The object of the study is the newspapers published during this period. The novelty of the work lies in the fact that the proposed study searches for pink noise in the data that were obtained from the press of the first quarter of the XIX century. The paper shows that the public consciousness of this period was in a state of self-organized criticality. Previously, the state of self-organized criticality could be found only in systems that arose at the end of the XIX century or later. The difficulty of the problem considered in this paper is that there are almost no mass sources for such an early historical period, and very few of the available ones lend themselves to formalization. The novelty of the conducted research lies in the application of the scientific tool of the theory of self-organized criticality to data having origins in the first quarter of the XIX century. The main conclusion made by the authors of the article is that the public consciousness in the pre-Decabrist period was in a state of self-organized criticality. For the analysis, statistics of publications in newspapers and magazines were collected, which served as a reflection of the liberal agenda relevant to the period of the genesis of the Decembrists. The paper shows that the sequence of publications on liberal information issues in the Russian press in the period 1815-1825 contains pink noise. Fourier analysis was used to determine it in the dynamic series.

Keywords: statistics, self-organized criticality, Fourier analysis, the era of Alexander I, newspapers, media, press, liberal agenda, liberalism, pink noise

Правильная ссылка на статью:

Лягушкина Л.А.. Опыт классификации социального положения репрессированных в СССР с помощью метода опорных векторов // Историческая информатика. 2022. № 1. С. 128-139. DOI: 10.7256/2585-7797.2022.1.37719 URL: https://nbpublish.com/library_read_article.php?id=37719

Статья опубликована с лицензией Creative Commons Attribution-NonCommercial 4.0 International License (CC BY-NC 4.0) – Лицензия «С указанием авторства – Некоммерческая».

Читать статью

Результаты процедуры рецензирования статьи:

Читать рецензию

наверх

Аннотация: В статье рассматриваются различные подходы к классификации занятий в исторических исследованиях на примере базы данных «Жертвы политического террора в СССР», разработанной историко-просветительским обществом «Мемориал» (признано иностранным агентом и ликвидировано по решению суда). Необходимо обобщить разрозненные данные о профессии и занятиях репрессированных. В статье дается краткий обзор методов, которыми ранее уже решалась эта задача: от ручного отнесения тех или иных занятий и профессий репрессированных к разным общественным группам, которые существовали в 1930-х годах в СССР, до полностью автоматической кластеризации. Далее предлагается новый способ: применить для классификации машинное обучение «с учителем»: использовать уже разделенные в рамках предыдущих исследований на группы записи для обучения алгоритма и последующей автоматической разметки. Наилучшим из опробованных способов оказался метод опорных векторов, который на тестовой выборке показал точность 95%. Рассматриваются преимущества и ограничения подобной классификации, главным из которых является то, что некоторые общественные группы определяются систематически более плохо. Тем не менее, применение этой методики позволило крайне быстро разметить 350 тыс. новых записей из базы данных. Разметка на основе обработанных историком «тренировочных» данных представляется перспективным методологическим направлением для исторической информатики.

Ключевые слова: машинное обучение, СССР, отечественная история, историческая информатика, разметка данных, исторические базы данных, сталинизм, метод опорных векторов, политические репрессии, классификация данных

Abstract: The article describes various approaches to the classification of occupations in historical research, using the example of the database "Victims of political terror in the USSR". A brief overview of the methods by which this problem was previously solved is given: from manual assignment of certain occupations and professions of the repressed to different social groups that existed in the 1930s in the USSR, to automatic clustering. Further, a new method is proposed: to apply supervised machine learning for classification: use records already divided into groups during the author’s previous studies for training the algorithm and automatic labeling. The best of the tested methods turned out to be the support vector machine, which showed an accuracy of 95% on the test sample. The advantages and limitations of such a classification are considered, with the main limitation appears to be that some social groups are systematically defined more poorly. Nevertheless, the application of this technique made possible to mark up 350 thousand new records from the database extremely quickly. Markup based on the "training" data processed by the historian appears to be a promising direction for historical data science.

Keywords: machine learning, USSR, Russian history, historical data science, data markup, historical data bases, Stalinism, support vector machine, political terror, classification

Правильная ссылка на статью:

Козыкин А.В.. Методика оценки изменений агрокультурного ландшафта на основе ГИС-обработки планов межевания 1861 г. и современного описания лесного фонда Национального парка «Кенозерский» // Историческая информатика. 2021. № 2. С. 221-232. DOI: 10.7256/2585-7797.2021.2.35089 URL: https://nbpublish.com/library_read_article.php?id=35089

Статья опубликована с лицензией Creative Commons Attribution-NonCommercial 4.0 International License (CC BY-NC 4.0) – Лицензия «С указанием авторства – Некоммерческая».

Читать статью

Результаты процедуры рецензирования статьи:

Читать рецензию

наверх

Аннотация: Для многих особо охраняемых природных территорий России традиционные агроландшафты являются объектами высокого историко-культурного и природного наследия. Их сохранение и восстановление требует глубокого понимания процессов их возникновения, формирования и деградации. В условиях Севера Европейской части России агроландшафты при сокращении ведения сельского хозяйства зарастают лесами, утрачивая свои внешние черты. Однако, структурные характеристики этих лесов, как правило, свидетельствуют об их происхождении и особенностях сукцессий. Исследование проведено с целью выработки методики оценки масштабов сельскохозяйственного освоения в прошлом, моделирования процессов исторической трансформации агроландшафтов, идентификации участков подсечно-огневого, переложного, двух- и трёхпольного земледелия по структурным характеристикам постагрогенных лесов. В основе исследования лежит сравнительное сопоставление в ГИС растровых аналогов планов межевания второй половины XIX века и векторных слоёв современного лесоустройства с атрибутивными данными о структуре лесов. Использование картографических материалов лесоустройства и таксационных характеристик лесов для сопоставления с землеустроительными документами прошлого на модельном участке ранее в научной литературе не встречалось. Высокая точность современных лесоустроительных работ обеспечивает вполне допустимую сходимость со старыми межевыми планами, выполненными инструментальным способом, и дает возможность использования данных по таксации лесов для внутриландшафтной дифференциации агроландшафтов XIX в. Исследование проведено на территории модельного участка в границах Национального парка «Кенозерский» (Архангельская область) на основе комплекта межевых планов 1861 г. и ГИС лесоустройства 2014 г., разработанной Архангельским филиалом ФГУП Рослесинфорг. Обработка в ГИС межевых планов XIX в. и планов современного лесоустройства позволяет моделировать изменения агроландшафтов по отдельным угодьям, проследить влияние почвенных условий и элементов аграрного использования на процессы изменений типологической и таксационной структуры формирующихся на них современных лесов, исторических реконструкций биологического разнообразия экосистем прошлого.

Ключевые слова: агроландшафты, эколого-историческая трансформация, исторические ГИС, межевые планы, лесоустроительные планы, внутриландшафтная дифференциация, типы угодий, таксационные характеристики лесов, пашня, перелог

Abstract: In many Russian nature reserves traditional landscapes are objects of important historical and cultural heritage. To preserve and restore them one needs to deeply understand their development, formation and degradation processes. In the north of European Russia agricultural landscapes are often covered with forests and lose their features when agricultural activity decreases. However, structural characteristics of these forests as a rule tell us about their development and peculiarities of successions. The study aims at creating a technique to estimate the scope of former agricultural land development, model historical transformation of agricultural landscapes and identify plots of slash and burn, shifting, two and three field agriculture judging by structural characteristics of post-agrarian forests. Aided by GIS the study compares raster analogs of land demarcation plans of the second half of the 19th century and vector layers of present day forests with attributive data on the forest structure. The use of cartographic forest data and inventory forest characteristics to compare with former land management documents related to the plot named have not been found in studies before. High precision of present day land management provides for permitted comparability with old demarcation plans and allows one to use inventory data for inter-landscape differentiation of agricultural landscapes in the 19th century. The study covers a model plot within Kenozero National Park (Arkhangelsk Region) addressing 1861 demarcation plans and 2014 forests GIS developed by Arkhangelsk branch of Roslesinforg. GIS processing of 19th century and present day demarcation plans provides for modeling agricultural landscape changes in relation to separate plots, trace the influence of soil conditions and elements of agrarian use on topological and inventory changes of emerging forests and reconstruct the biodiversity of ecosystems in the past.

Keywords: inter-landscape differentiation, forest management plans, demarcation plans, early GIS data, ecological and historic transformation, agricultural landscapes, land types, taxational specifications of forest stock., arable land, fallow

Правильная ссылка на статью:

Кузнецов А.В.. Компьютерный анализ текстов на латинском языке: Латентно-семантический анализ «Истории готов, вандалов и свевов» Исидора Севильского // Историческая информатика. 2020. № 2. С. 202-217. DOI: 10.7256/2585-7797.2020.2.32961 URL: https://nbpublish.com/library_read_article.php?id=32961

Статья опубликована с лицензией Creative Commons Attribution-NonCommercial 4.0 International License (CC BY-NC 4.0) – Лицензия «С указанием авторства – Некоммерческая».

Читать статью

Результаты процедуры рецензирования статьи:

Читать рецензию

наверх

Аннотация: В статье предпринимается попытка с использованием современных методов интеллектуального анализа текстов исследовать латиноязычный текст хроники «История готов, вандалов и свевов» выдающегося богослова и ученого VII века Исидора Севильского. Ставится цель проверить выдвинутую в историографии гипотезу о наличии у автора представлений об определенной иерархии варварских народов. Основное внимание направлено на раскрытие неявных семантических взаимоотношений между различными частями произведения с целью уточнения отношения автора к трем варварским народам. Анализ текста проводился на языке программирования R. В качестве конкретного метода бы выбран метод латентно-семантического анализа, позволяющий проводить сравнение и кластеризацию текстов на основе семантического пространства, построенного путем сингулярного разложения терм-документной матрицы. Новизна исследования заключается в том, что впервые реализован полный цикл латентно-семантического анализа средневекового латиноязычного текста. Проведена предварительная подготовка, построено семантическое пространство текста памятника, осуществлено сравнение семантической схожести текстов на основе меры косинусного сходства. Результаты анализа позволяют утверждать, что Исидор Севильский действительно выстраивает иерархию из трех варварских народов, придавая большее сходство описанию вестготов и свевов и особняком ставя вандалов.

Ключевые слова: интеллектуальный анализ текста, семантическое пространство, кластерный анализ, сингулярное разложение, латентно-семантический анализ, компьютерный анализ текстов, векторная модель текстов, раннесредневековая историография, Исидор Севильский, терм-документная матрица

Abstract: The article attempts to study the Latin text of the chronicle “Historia de regibus Gothorum, Wandalorum et Sueborum” written by the famous 17th c. theologist and scholar Isidoro de Sevilla by means of advanced methods of intellectual text analysis. The main goal is to verify the hypothesis that the author had ideas about the hierarchy of barbarians. The main focus is to clarify the implicit semantic relationship between different parts of the chronicle in order to find out the author’s attitude to these three barbaric groups. The analysis of the text was performed with the R programming language. The specific method is that of latent semantic analysis providing for comparing clustering of texts on the basis of semantic space designed through the singular decomposition of term-document matrix. The research novelty of the study is that it is the first time when a full cycle latent semantic analysis of a Medieval Latin text has been performed which covered the text preprocessing, the creation of the semantic space and the calculation of the semantic similarity of texts on the basis of cosine similarity measure. The analysis results suggest that Isidoro de Sevilla really built the hierarchy of three barbarian groups providing greater similarity to the description of the Visigoths and the Suebi and putting the Vandals apart.

Keywords: vector space text representations, text mining, semantic space, cluster analysis, singular value decomposition, latent semantic analysis, computational text analysis, early Middle Age historiography, Isidore of Seville, term-document matrix

Правильная ссылка на статью:

Фролов А.А.. Опыт применения инструментов геоинформатики в кодикологическом исследовании писцовых книг // Историческая информатика. 2020. № 2. С. 218-233. DOI: 10.7256/2585-7797.2020.2.33330 URL: https://nbpublish.com/library_read_article.php?id=33330

Статья опубликована с лицензией Creative Commons Attribution-NonCommercial 4.0 International License (CC BY-NC 4.0) – Лицензия «С указанием авторства – Некоммерческая».

Читать статью

Результаты процедуры рецензирования статьи:

Читать рецензию

наверх

Аннотация: Предметом изучения в статье являются способы обобщения и визуализации кодикологических наблюдений над архивной рукописью средствами геоинформатики. Данное решение позволяет систематизовать сведения исторического источника и делает их максимально доступными для широкого круга пользователей сети Интернет. Созданный в результате веб-проект может использоваться не только в исследовательских, но и в образовательных целях. Материалом для данной работы послужили результаты кодикологического изучения новгородской писцовой книги Водской пятины письма С. Клушина, работа над которой была завершена в 1542 г. (хранится в РГАДА). В рамках предлагаемого подхода материальный носитель исторического текста, рукопись, рассматривается как особое пространство в собственной системе координат. Это делает применимыми для установления топологии (то есть взаимного соотношения) ее объектов методы геоинформатики. Предлагаемый подход реализуется на практике впервые, поэтому основное внимание уделено описанию важнейших этапов обработки исходных кодикологических материалов для превращения их в ГИС-проект, основанный на реляционной базе данных. Результатом проделанной работы стал веб-ресурс, позволяющий визуализировать значительный объем данных о рукописи. Его, однако, не следует считать картой или картоидом. Более корректным представляется обозначить его как кодикологическую схему рукописи, созданную в среде ГИС и опубликованную как веб-ресурс, но без карты как таковой. Полученная схема корректируется и управляется средствами, которые используются при работе с базами данных и не ограничены картографическим интерфейсом.

Ключевые слова: геоинформатика, источниковедение, кодикология, базы данных, веб-ресурс, новгородские писцовые книги, Новгородская земля, визуализация, пространство исторического источника, моделирование пространства

Abstract: The article discusses methods of systematization and visualization of codicological observations on an archival manuscript by means geoinformatics. This solution provides for summarizing the information of a historical source and its maximum accessibility for a wide range of Internet users. The web project created can be used not only for research but educational purposes as well. The paper grounds on the results of 1542 Semen Klushin’s codicological study of Novgorod pistsovaya kniga covering Vodskaya Pyatina (The work is stored in the Russian State Archive of Ancient Manuscripts, RGADA). The physical medium of a historical text, i.e. a manuscript, is considered as a special space in its own reference system. This makes geoinformatics methods applicable to determine the topology (i.e. the mutual relationship) of its objects. The approach proposed is tested for the first time that's why the main attention is paid to the description of the most important stages followed when processing the source codicological materials to turn them into a GIS project based on a relational database. The web resource created provides for visualizing a significant bulk of manuscript data. However, it should not be considered a map or a spatial model. It may be determined as a manuscript codiological GIS scheme published as a web resource but without a map. The scheme is adjusted and controlled by tools which are used when working with databases and are not limited to the cartographic interface.

Keywords: visualization, Novgorod land, Novgorod cadaster books, web resource, data bases, codicology, historical source studies, geoinformatics, historical source space, spatial modeling

Правильная ссылка на статью:

Ринчинов О.С.. Диахронический корпус бурятского языка как цифровой инструмент исторических исследований: подходы, решения, экспериментальные исследования // Историческая информатика. 2020. № 2. С. 26-34. DOI: 10.7256/2585-7797.2020.2.33446 URL: https://nbpublish.com/library_read_article.php?id=33446

Статья опубликована с лицензией Creative Commons Attribution-NonCommercial 4.0 International License (CC BY-NC 4.0) – Лицензия «С указанием авторства – Некоммерческая».

Читать статью

Результаты процедуры рецензирования статьи:

Читать рецензию

наверх

Аннотация: В статье рассмотрены вопросы использования диахронического корпуса бурятского языка, составленного на основе написанных на старомонгольской письменности летописей, для реконструкции истории и исторической географии бурятского народа. В этой связи обсуждены основные проблемы семантической разметки корпусных данных, размер которого в настоящее время достигает 82 тыс. словоупотреблений. Новизна исследования заключается в том, что впервые объектом применения методов компьютерной лингвистики являются тексты на классическом монгольском языке, представленные в латинизированной транслитерации. Описаны подходы к разработке онтологической схемы историко-культурной предметной области, выявлению элементов родо-племенного и географического контекстов. На основе вычислительного эксперимента, проведенного с использованием СУБД MS Access и языка SQL, показаны преимущества использования методологии авторитетного контроля, в частности, объектов категорий «род/семья» и «место», для первичного анализа корпусных данных и формирования основных семантических кластеров. Применение авторитетных записей позволило в существенной степени ускорить накопление эмпирических данных для автоматизации содержательного анализа текстов, включенных в корпус. Проведенные эксперименты позволили определить направления дальнейшей работы по созданию и совершенствованию инструментов семантической разметки диахронического корпуса бурятского языка и превращению его в удобный инструмент исторических исследований.

Ключевые слова: бурятские летописи, диахронический корпус, история, семантическая разметка, авторитетный контроль, топонимы, этнонимы, родо-племенная структура, онтология, семантический кластер

Abstract: The article studies the diachronic corpus of the Buryat language compiled on the basis of annals written in old Mongolian used to reconstruct the history and historical geography of the Buryat people. In this regard, the article discusses the main problems of semantic markup of corpus data. The size of the corpus currently exceeds 82,000 words. The research novelty is that classical Mongolian texts presented in Latin transliteration are addressed by computer linguistics methods for the first time. The author describes approaches to develop the ontological outline of the historical and cultural subject area as well identifies the kinship and geographical context elements. The MS Access and SQL simulation experiment demonstrates the advantages of the authority control methodology, in particular the “family” and “place” categories, for the initial analysis of corpus data and the formation of semantic clusters. The use of authoritative records has significantly accelerated the accumulation of empirical data for automation of the substantive analysis of texts in the corpus. These experiments allowed the author to see further steps to create and improve the Buryat language diachronic corpus semantic markup tools and transform this language into a convenient tool for historical research.

Keywords: kinship, ethnonyms, toponyms, authority control, semantic markup, history, diachronic corpus, Buryat chronicles, ontology, semantic cluster

Правильная ссылка на статью:

Акашева А.А., Чечин А.В.. Методика реконструкции межевого плана и границ Нижнего Новгорода 1784 года на базе специализированных геодезических программ // Историческая информатика. 2020. № 1. С. 111-142. DOI: 10.7256/2585-7797.2020.1.32103 URL: https://nbpublish.com/library_read_article.php?id=32103

Статья опубликована с лицензией Creative Commons Attribution-NonCommercial 4.0 International License (CC BY-NC 4.0) – Лицензия «С указанием авторства – Некоммерческая».

Читать статью

Результаты процедуры рецензирования статьи:

Читать рецензию

наверх

Аннотация: Одной из задач исторических ГИС является геопривязка к современной системе координат старинных карт, которые по определению содержат погрешности разного рода. В связи с этим есть потребность в разработке алгоритмов, позволяющих избежать их и позиционировать источники с наименьшими деформациями, искажениям. Описанная задача актуальна и для русских планов Генерального межевания. Их особенность заключается в том, что они содержат точные геодезические характеристики земельных дач. Предметом исследования является комплекс архивных планов Нижнего Новгорода конца XVIII в., на основе которых была разработана методика реконструкции границ города и межевых планов. Методология исследования базируется на принципах историзма, системности и объективности, выделяется роль математико-статистических методов, использованы специально-исторические (историко-типологический, историко-генетический) методы и геодезический метод обработки и уравнивания теодолитного хода, моделирования, картометрический. Научная новизна определяется алгоритмом реконструкции границ города и межевых исторических планов, технологическими решениями для изучения объекта с помощью геодезических программ, новыми данными о землеустроительных работах и созданных по их результатам картографическим материалам в конкретном регионе России. Основными выводами исследования являются позиционированные границы Нижнего Новгорода в условной системе координат. Установлено, что теодолитные ходы изученных дач имели существенные угловые и относительные линейные погрешности: для селитебной дачи они составили 3°29' и 1/31, для выгонной – 2°49' и 1/80 соответственно, для Благовещенского монастыря оказались допустимыми: 0°37’и 1/139. Получен растровый межевой план Нижнего Новгорода. В дальнейшем он может быть использован для геопривязки и создания исторической ГИС.

Ключевые слова: пространственные данные, теодолитный ход, комплекс Кредо, геодезические измерения, русский город, Нижний Новгород, межевые планы, Генеральное межевание, исторические ГИС, системы измерения

Abstract: A present-day task of historical GIS is to geotag ancient maps within еру modern coordinate system. These maps are sure to have many inaccuracies. In this regard, there is a need to develop algorithms accounting for these inaccuracies and allowing one to position sources with the smallest deformations and drawbacks. This task is also relevant for Russian plans of the General Survey. Their peculiarity is that they have accurate geodetic characteristics of plots. The research subject is a set of Nizhny Novgorod plans of the late 18th сentury which were the basis for a technique used to reconstruct the city borders and land survey plans. The research methodology is based on the historicism principal, systematicity and objectivity. The authors emphasize the role of statistical methods and apply specifically historical (historical and typological as well as historical and genetic) methods, the geodetic method to process and equalize transit traverse, modeling and cartometry. The research novelty is determined by the algorithm of city borders and historical land survey plans reconstruction, technological solutions for studying the object by means of geodetic programs, new data on land management and cartographic materials based on land management results in the specific region of Russia. The main conclusions are the positioned borders of Nizhny Novgorod in the conditional coordinate system. It was found that transit traverses of plots studied had significant angle linear errors. For settlement plots they are 3°29' and 1/31 and for pasture plots they are 2°49' and 1/80. For Blagoveshchenskiy Monastery they are 0°37’and 1/139. A raster land survey plan of Nizhny Novgorod has been made. It can be further used for geotagging and creating historical GIS.

Keywords: historical GIS, spatial data, traverse, CREDO, geodetic measurements, Russian city, Nizhny Novgorod, boundary plans, General surveying, measurement system

Правильная ссылка на статью:

Ляховицкий Е.А., Цыпкин Д.О.. Инфракрасная визуализация текста в изучении памятников древнерусской письменности // Историческая информатика. 2019. № 4. С. 148-156. DOI: 10.7256/2585-7797.2019.4.31588 URL: https://nbpublish.com/library_read_article.php?id=31588

Статья опубликована с лицензией Creative Commons Attribution-NonCommercial 4.0 International License (CC BY-NC 4.0) – Лицензия «С указанием авторства – Некоммерческая».

Читать статью

Результаты процедуры рецензирования статьи:

Читать рецензию

наверх

Аннотация: Предметом исследования является текст рукописного памятника, рассматриваемый, как материальный объект - система следов пишущего инструмента на писчем материале (бумаге, пергамене). Трассы орудия письма представляют собой сочетание рельефа и красителя (например, чернил). Текст, понимаемый, как совокупность таких трасс характеризуется наличием перепадов в толщине слоя красителя и его химическом составе на различных уровнях структуры текста. Такие перепады обусловлены различными аспектами письменного навыка и могут использоваться для его характеристики. Задача настоящей публикации — представить возможности современного оптико-электронного спектрозонального исследования исторических чернил в изучении текста рукописно-книжных памятников. Речь пойдет о технологии цифровой визуализации документов в ближней инфракрасной области спектра с последующей программной обработкой изображений Основным результатом настоящего исследования является формулирование основных направлений в раскрытии информационного потенциала текста, как физического объекта - системы следов посредством спектрозональной визуализации. Такими направлениями являются: 1) изучение следов пишущего инструмента с целью реконструкции системы движений и техники письма; 2) определение областей разновременной работы писца в рукописи ; 3) обнаружение правки в документе.

Ключевые слова: спектрозональная визуализация, мультиспектиральный анализ, кодикология, текстология, древнерусская письменность, чернила, историческая технология, истороическое почерковедение, палеография, история навыков

Abstract: The article studies the script as a material object that is the system of traces left by a writing medium on a writing material (paper or vellum). Traces of the writing medium are a combination of a relief and a dye (for instance, ink). The text understood as a combination of such traces is characterized by different dye thickness and its chemical composition on different text structure levels. Such differences are determined by varying aspects of the writing ability and can be used to characterize it. The article aims at presenting the advantages of a new electro-optical spectrozonal examination of historical inks to study handwritten scripts. It discusses the technology of digital visualization of documents in the near-infra-red region followed by computer processing of the image. The result of the work is the main research paths to study information potential of the text as a physical object (system of traces) by means of spectrozonal visualization. These paths are the study of writing medium traces to reconstruct the system of movements and the writing technique, the finding of zones written in different time and the search for corrections.

Keywords: historical technology, inks, Old Russian Цкшештп, textology, kodikology, multispectral analyzis, spectrozonal vizualization, historical grafology, paleography, history of skills

Правильная ссылка на статью:

Брюханова Е.А., Еремин А.А.. Оценка репрезентативности первичных материалов переписи 1897 г.: картографический подход // Историческая информатика. 2019. № 2. С. 232-241. DOI: 10.7256/2585-7797.2019.2.29770 URL: https://nbpublish.com/library_read_article.php?id=29770

Статья опубликована с лицензией Creative Commons Attribution-NonCommercial 4.0 International License (CC BY-NC 4.0) – Лицензия «С указанием авторства – Некоммерческая».

Читать статью

Результаты процедуры рецензирования статьи:

Читать первую рецензию

Результаты процедуры повторного рецензирования статьи:

Читать вторую рецензию

наверх

Аннотация: Основное внимание авторы уделяют оценке репрезентативности и степени сохранности переписных листов Первой всеобщей переписи населения 1897 г., отложившихся в российских и зарубежных архивах. Изучение сохранившихся коллекций первичных документов переписи позволяет сделать вывод о неоднородности термина «переписные листы», который включает несколько разных форм, применявшихся в зависимости от вида домохозяйства и региона, а также первые, вторые и третьи экземпляры переписных листов. Особенностью статьи является то, что полученные выводы были представлены в виде картограмм на основе современных и исторических карт. Исследование проводилось с помощью источниковедческого и пространственного анализа, а также комплексного подхода, в рамках которого переписные листы рассматривались как единый исторический источник вне зависимости от места их хранения. Новизна исследования заключатся в выявлении и введении в научный оборот комплекса первичных материалов Первой всеобщей переписи населения 1897 г. Кроме того, был предложен оригинальный подход, учитывающего как количество населенных мест, так и число сохранившихся переписных листов по ним, позволивший провести оценку степени сохранности переписного материала по уездам Российской империи. Делается вывод о том, что переписные листы с разной степенью сохранности были выявлены для 47% губерний и 25,5% уездов Российской империи. Коллекции переписных листов охватывают регионы Европейской России и Сибири, частично Кавказа и Средней Азии. Объем данных сохранившихся переписных листов и их «территориальный разброс» позволяет рассматривать их как комплексный источник по истории населения Российской империи рубежа XIX-XX вв.

Ключевые слова: историческая информатика, ГИС, пространственный анализ, база данных, источниковедческий анализ, исторический источник, архивный фонд, архив, переписные листы, перепись

Abstract: The authors assess how 1897 Census papers stored in Russian and foreign archives are represented and preserved. The study of primary data document collections leads to a conclusion that the term “census papers” is heterogeneous and includes several different forms used depending on a type of household and region as well as first, second and third copies of census forms. A peculiar feature of the article is the presentation of conclusions in the form of cartograms based on modern and historical maps. The study has used source studies analysis and spatial analysis as well as a complex approach treating census papers as a unified historical source irrespective of their storage place. The research novelty is identification and introduction of a complex of nominative 1897 Census data. In addition, the authors propose an original approach that takes into account both the number of areas populated and the number of census papers preserved in them which allowed them to assess the degree of preservation of census materials in Russian Empire uezds. The article concludes that census papers with different preservation state have been identified for 47 % of guberniyas and 25.5% of uezds. Census paper collections cover regions of European Russia and Siberia, partly those of the Caucasus and Central Asia. The volume of census paper data preserved and their "territorial spread" allows one to consider them a complex source on the history of the Russian Empire population at the turn of the 19th century. .

Keywords: Historical Informatics, Database, GIS, Spatial analysis, Archive fund, Historical source, Source study analysis, Archive, Census lists, Census

Правильная ссылка на статью:

Торвальдсен Г.. Связывание записей в историческом регистре населения Норвегии // Историческая информатика. 2019. № 2. С. 212-231. DOI: 10.7256/2585-7797.2019.2.30126 URL: https://nbpublish.com/library_read_article.php?id=30126

Статья опубликована с лицензией Creative Commons Attribution-NonCommercial 4.0 International License (CC BY-NC 4.0) – Лицензия «С указанием авторства – Некоммерческая».

Читать статью

Результаты процедуры рецензирования статьи:

Читать рецензию

наверх

Аннотация: Исторический регистр населения Норвегии содержит данные о населении страны с 1800 до 1964 г. Сведения о населении страны с 1964 г. до современности собраны в Центральном регистре населения. Исторический регистр состоит из данных метрических книг и записей актов гражданского состояния, заполняющих пробелы между переписями населения, проводившимися каждые десть лет. В 1801 г. и, начиная с 1865 г., эти переписи являлись номинативными, то есть содержали имена людей. Настоящая статья посвящена проблемам связывания записей переписей и метрических книг (record linkage) в период с 1800 по 1920 г. Особое внимание уделяется идентификации индивидов и трудностям связывания записей. Главная проблема заключается в том, чтобы идентифицировать человека по записям, относящимся к разным годам, в условиях значительного количества однофамильцев и вариации фиксации их имен, а также возраста. Создание стабильных идентификаторов индивидов и процедура связывания записей из различных источников потребовали разработки нового программного обеспечения, объединяющего автоматические и ручные методы. С помощью рассмотренных методов удалось связать сведения о более чем миллионе человек из нескольких источников.Анализ локальных баз данных позволяет надеяться на успешное связывание от 2/3 до 90% записей по различным периодам и регионам страны. Исторический регистр Норвегии является уникальным по охвату территории и многообразию связанных в нем исторических источников.

Ключевые слова: связывание записей, данные лонгитюдных исследований, микроданные, история, изучение здоровья, Норвегия, переписи, церковные записи, регистр, метод

Abstract: The historical population register of Norway contains data on the country's population from 1800 to 1964. Information on the country's population from 1964 to the present is collected in the Central Population Register. The historical register consists of these metric books and civil records, filling in the gaps between population censuses conducted every ten years. In 1801 and, beginning in 1865, these censuses were nominative, that is, contained the names of people. This article is devoted to the problems of linking census records and metric books (record linkage) from 1800 to 1920. Special attention is paid to the identification of individuals and the difficulties of linking records. The main problem is to identify a person by the records belonging to different years, in terms of a significant number of namesakes and variations in the fixation of their names, as well as age. The creation of stable identifiers for individuals and the procedure for linking records from various sources required the development of new software combining automatic and manual methods. Analysis of local databases allows us to hope for successful linking from 2/3 to 90% of records for various periods and regions of the country. The historical register of Norway is unique in its coverage of the territory and the variety of historical sources related to it.

Keywords: Norway, health study, history, microdata, longitudinal research data, record linkage, sensus, church records, register, method

Правильная ссылка на статью:

Торвальдсен Г.. Автоматизация транскрибирования исторических источников: опыт работы с материалами переписи населения Норвегии 1950 года // Историческая информатика. 2018. № 1. С. 94-103. DOI: 10.7256/2585-7797.2018.1.25686 URL: https://nbpublish.com/library_read_article.php?id=25686

Статья опубликована с лицензией Creative Commons Attribution-NonCommercial 4.0 International License (CC BY-NC 4.0) – Лицензия «С указанием авторства – Некоммерческая».

Читать статью

наверх

Аннотация: Данная статья посвящена проблемам транскрибирования рукописных материалов переписи населения Норвегии 1950 г. Они представляют собой 801 000 двусторонних опросных листов, каждый из которых был отсканирован. Программы оптического распознавания печатного текста совершенствуются на протяжении более чем четырех десятилетий. В настоящее время исследователи стремятся применить аналогичные методы для транскрибирования рукописного материала. В статье проанаизирован опыт работы Центра исторической документации Норвегии Университета Тромсо по распознаванию рукописного текста, рассматриваются проблемы использования различных методов распознавания текста и возможности их применения к номинативным источникам. Из-за трудностей с распознаванием и выделением самостоятельных рукописных символов, изображения целых слов математически группируются по соответствию подобным изображениям или же идет поиск этих слов-изображений в ранее транскрибированных источниках. После контроля качества распознавания программное обеспечение использует номера строк для размещения информации из транскрибируемых ячеек, после чего они становятся частью базы данных переписи. Кроме того, разрабатывается специальное программное обеспечение для обработки рукописных числовых кодов, данных о профессиях, образовании и т. д. Предложенные в статье методы дают возможность подняться на новый уровень и качество транскрибирования рукописного текста и могут быть применены для распознавания записей номинативных источников РОссии, в частности метрических книг и записей ЗАГС. Основными задачами по-прежнему остаются поиск методов и алгоритмов, которые оптимально подбирают связи между различными переменными и рационализация методов интерактивной корректуры.

Ключевые слова: базы данных, Перепись населения Норвегии, связывание записей, транскрибирование, Оптическое распознавание текста, глубокое обучение машин, нейронные сети, Исторический регистр населения, графического интерфейса, рукописный текст

Abstract: The article addresses the issue of transcribing handwritten materials of the 1950 Norwegian Population Census. These are 801 000 scanned double sided questionnaires. Optical character recognition programs have been improving for over four decades. Now researchers aim to extend similar techniques to handle handwritten historical source material. The article analyzes studies carried by the Center of Historical Documents at the University of Tromsø which address handwritten text recognition as well as considers the use of various text recognition techniques as far as nominative sources are concerned. Since it is difficult to distinguish and separate individual handwritten characters, the words are mathematically clustered according to image similarity or searched for within sources that have been transcribed earlier. After the recognition quality control, the software uses the line numbers to place the information taken from the transcribed cells. After that the latter become a part of the census database. Moreover, special software has been developed to process handwritten numerical codes, data on occupations and education, etc. The methods offered in the article provide for handwritten texts transcribing quality improvement and can be used to recognize nominative source notes in Russia, for instance, parish registers and vital records. The main goals are still the search for methods and algorithms which optimally link different variables as well as the rationalization of interactive proofread methods.

Keywords: graphical user interface, Historical Population Register, neural network, Deep learning, OCR, transcription, record linkage, Norwegian population census, databases, hand writing