Статья 'Создание тематической информационной базы статистических источников по экономической истории: цифровой ресурс и опыт его верификации' - журнал 'Историческая информатика' - NotaBene.ru
по
Journal Menu
> Issues > Rubrics > About journal > Authors > About the Journal > Requirements for publication > Peer-review process > Article retraction > Ethics > Online First Pre-Publication > Copyright & Licensing Policy > Digital archiving policy > Open Access Policy > Article Processing Charge > Article Identification Policy > Plagiarism check policy > Editorial Board > Council of Editors
Journals in science databases
About the Journal

MAIN PAGE > Back to contents
Historical informatics
Reference:

Information Base of Economic History Statistical Sources: Digital Source and Its Verification

Akimov Anton Viktorovich

Director of Government Relations, Joint-Stock Company "Kordinat"

115054, Russia, g. Moscow, ul. Valovaya, 26, of. 7

akimov_84@mail.ru
Other publications by this author
 

 

DOI:

10.7256/2585-7797.2020.2.33401

Received:

08-07-2020


Published:

30-07-2020


Abstract: The article describes the creation and the structure of the information base covering statistical sources related to the history of Russian pipe industry in the late 19th – early 20th centuries, reviews the sources used, justifies topicality of the study and briefly characterizes pipe industry in this period. The author names four stages characterized in terms of their content and interrelation of elements, the presence of quantitative values and their analysis. The article gives examples of schemes for creating different tables that make up the basis of the resource as well as specific examples of their structure. The research novelty is the goals set and the way they are achieved. These have not been addressed by historians before as far as the industry, the chronological and territorial framework and some other parameters are concerned. Moreover, the use of mass statistical material in such a form is clearly individual and unique. In particular, the thematic digital information resource created which demonstrates operating rates of individual plants and the branch as a whole does not have analogs and can be further developed in accordance with the parameters introduced. In total, this resource consists of 25 Excel files containing 181 917 numerical values of which 73 591 are the values of sources the resource is based on. The methodology suggested for the creation of such an information base and analysis of its data can be considered a new approach to the source study of digitized mass statistical sources. 


Keywords:

Statistical sources, Information base, Digital resource, Verification, Early 20th century, Ferrous metallurgy, Pipe industry, Performance indicators, Market indicators, Workforce structure

This article written in Russian. You can find original text of the article here .

Введение

В современную цифровую эпоху, характеризующуюся бурным развитием информационных технологий и цифровизацией разнообразных процессов, активно увеличивается спрос на оцифрованные источники в гуманитарных науках, в особенности в исторических исследованиях. Так, в исследованиях по экономической истории особую роль играют статистические материалы различного происхождения, характеризующие структуру и динамику развития той или иной отрасли.

Очевидно, что комплекс подобных источников может являться эффективным инструментом исследования определенной проблематики. При этом механизмы формирования источниковых комплексов и их использования находятся еще в стадии становления, а в отношении верификации оцифрованных данных и их источниковедческого анализа возникает ряд проблемных вопросов, подходы к решению которых требуют апробации.

В данной работе предлагается рассмотреть этапы создания и использования информационной базы статистических источников на примере российской трубной отрасли конца XIX - начала XX вв., в отношении которой нами была проведена верификация данных и соответствующий источниковедческий анализ. В целях дальнейшего использования источников, прошедших верификацию, и вовлечения их в более широкий научный оборот, вся составленная информационная база представлена в цифровом формате в открытом доступе на тематическом электронном ресурсе в рамках исследовательского проекта «Металлургия Российской империи в к. XIX–нач. ХХ вв.» (http://www.hist.msu.ru/Departments/Inf/Metallurgy/), реализованного на кафедре исторической информатики исторического факультета МГУ им. М. В. Ломоносова. Это открытый ресурс, который может расширяться по мере оцифровки и добавления данных и их источниковедческого анализа. При этом представленный в рамках данной статьи материал носит несколько упрощенный характер, в том числе и в отношении структуры данных, что определяется ограниченным объемом статьи и связанной с этим формой представления материала.

Информационная база для изучения данной отрасли была сформирована на основе большого количества статистических сборников, составляющих 163 издания, и включают в себя 73 591 числовых значений, характеризующих различные показатели деятельности заводов по производству труб. Более того, в информационной базе содержится большое количество расчетных значений, а общее число всех количественных значений составляет 181 917 чисел.

В целом при разработке подобного комплекса статистических источников и его подготовке к дальнейшему использованию можно выделить следующие этапы:

1) Выявление комплекса источников, лежащих в основе оцифрованного ресурса, и обоснование их достаточной полноты.

2) Разработка структуры цифрового ресурса.

3) Оцифровка и систематизация данных.

4) Верификация данных и их источниковедческий анализ.

В соответствии с вышеперечисленными этапами работы и была сформирована информационная база статистических источников, описание и работа с которой представлены далее. Конечно, первый этап характерен в том числе и для традиционного исследования, а последующие уже имеют свою специфику, связанную непосредственно с работой в цифровом пространстве. Так как представленная работа в большей степени посвящена составлению информационной базы и работе с ней, то первый этап мы рассмотрим без углубления в описание источников и их характеристики. Также необходимо отметить, что структура цифрового ресурса может иметь разные форматы – в виде базы данных, набора независимых или взаимосвязанных таблиц, что связано с целями и задачами исследования, а также, что особенно важно, с форматом исходных источников, лежащих в основе цифрового ресурса.

В нашем случае был выбран формат независимых таблиц единой формы с иерархической структурой данных, где каждый уровень характеризуется определенными показателями и категориями, значения которых представлены в динамике. Это связано с тем, что источники, лежащие в основе информационного ресурса, – это тематические статистические ежегодники, издававшиеся в Российской империи в разных сериях и форматах в к. XIX-нач. XX вв., представленные данными на разных уровнях. Наиболее детализированный уровень в отношении производственных и социальных аспектов – это уровень предприятий, имеющий также дополнительное деление по различным критериям (например, распределение по цехам), а в отношении импорта – соответствующая статья таможенного тарифа. В связи с этим таблицы, лежащие в основе всей структуры ресурса, основаны непосредственно на них, а более высокие уровни – это группы, куда входят в различных вариантах заводы и статьи таможенного тарифа. Это могут быть совокупные значения по губерниям, видам и группам производства, производственным операциям и т.д. – данные более высоких уровней определяются непосредственно спецификой конкретного используемого источника. При этом элементы каждого уровня характеризуются определенными показателями и категориями, где показатели раскрывают более подробно иерархическую структуру, то есть уровни расчетов, а категории характеризуют аспекты деятельности предприятия или отрасли. В составленных таблицах наименования показателей относятся к каждому конкретному уровню расчета и указаны в каждой строке соседних столбцов, а наименования категорий расположены по столбцам, в которых непосредственно находятся количественные значения. Наряду с этим все данные находятся в динамике, где выделяются годичные и месячные периоды, в результате чего каждое значение по конкретному уровню с указанием наименования характеризующих их показателей и категорий относится к определенному промежутку времени.

В абсолютном большинстве случаев количественные значения по элементам каждого уровня (в основе – заводы и статьи таможенного тарифа) представлены в используемых источниках в сумме по всему уровню и сумме значений всех уровней (например, сумма значений заводов по губернии), а также в сумме по категориям. Это позволяет проводить расчеты в различных вариантах на предмет соотношения указанных в источниках значений, что в совокупности с дополнительными вычислениями более сложного формата способствуем задачам верификации данных и источниковедческого анализа, лежащих в основе 4-го этапа.

Таким образом, сложность структуры определяется именно тем, что эти данные многомерные, характеризующиеся разными атрибутами, которые в том числе дополнительно задаются при построении таблиц, непосредственно служащих для анализа количественных значений. В данном случае выделяются два вида таблиц: 1) исходные таблицы, составленные на основе количественных значений используемых источников, в которых также присутствуют дополнительные расчетные показатели; 2) таблицы для целей анализа, которые были составлены на основе исходных таблиц с дополнительными расчетами и новыми введёнными атрибутами, служащими для расчета по заданным критериям. Каждый из видов таблиц, краткие их характеристики, состав и возможности использования будут представлены далее при рассмотрении этапов проведения работ по составлению информационной базы.

Еще раз отметим, что все таблицы информационной базы находятся в открытом доступе (ссылка http://www.hist.msu.ru/Departments/Inf/Metallurgy/) и доступны для скачивания. При этом файлы Excel в целях предотвращения случайного изменения значений имеют пароль, ограничивающий возможности пользователей. При этом пароль имеет простой вид «123» и указан в шапке таблицы при ее описании, а при снятии блокировки листа пользователи получают все возможности по работе с ресурсом.

* * *

Прежде чем обратиться к характеристике организации данных и источниковой базы, вкратце охарактеризуем состояние трубной промышленности дореволюционной России, ее роль и динамику развития на рассматриваемом интервале времени.

В основу создания тематической информационной базы статистических источников легли данные трубной промышленности, которая к началу XX в. фактически выделилась в отдельную подотрасль металлургического производства, заняв высокое место в производственной цепочке и на рынке. При этом здесь необходимо четко разделять чугунные и железные трубы, производство которых, несмотря на формальное нахождение в рассматриваемый период в рамках одной подтрасли, находились на совершенно разных уровнях технического развития, а также имеют разные рынки и их характеристики. В связи с этим информационная база и все проводимые расчеты в отношении трубной промышленности делятся по этим двум направлениям, исходя из вида производства труб и типа готовой продукции. Если производство чугунных труб является достаточно простым (в технологическом отношении) и в разном виде существовало в России уже длительное время до рассматриваемого периода, то начало изготовления железных труб в промышленном масштабе относится только к середине 70-х гг. XIX в., а с сер. 80-х гг. XIX в. наступил настоящий рывок в их производстве, сопровождающийся технической революцией. В это время в Южном районе Российской империи стали появляться одним за другим заводы, специализирующиеся на производстве железных труб. Это было связано с близостью сырьевой базы, что, конечно же, было характерно для всех заводов южных губерний, а также, что не менее важно, близостью к рынкам сбыта, в первую очередь – к активно развивавшимся нефтяным районам северного Кавказа. Соответственно, запросы потребителей сформировали и предложение, в том числе по видам выпускаемой продукции, где особенную роль заняли трубы для нефтяной промышленности (прообразы современных труб большого диаметра, обсадные трубы, бурильные и пр.). Для возможности конкуренции с импортной продукцией строящиеся трубные заводы получали самые современные на тот момент технологии, целиком закупая оборудование за границей, а иногда и целые заводы. Так, известно, что производства труб для одного из первых трубопроводов Баку-Батуми в США Никополь-Мариупольским металлургическим обществом был закуплен трубопрокатный цех, запущенный 1 (13) февраля 1897 г. и ставший впоследствии одним из крупнейших трубопрокатных заводов. Из других крупных заводов, специализирующихся на производстве железных труб, необходимо отметить Екатеринославский трубопрокатный завод (ст. Горяиново) и Таганрогский завод. Помимо производства железных труб, в Южном районе также присутствовали и заводы, являющееся крупнейшими производителями чугунных труб – это в первую очередь Александровский, Сулинский, Днепровский и Макеевский заводы, а также некоторые другие. В целом Юг Российской империи стал крупнейшим производителем трубной продукции, на который в 1905 г. приходилось 71,6 % всего производства чугунных труб и 81,3 % железных труб, а к 1915 г. эти доли выросли, соответственно, до 79,4 % и 83,5 % (таблица 1).

Таблица 1. Объем производства в Российской империи типов продукта II и IV и трубной продукции, пуд. [4, 10, расчеты автора]

Из других районов в отношении железных труб можно выделить Царство Польское, где производство начало развиваться даже раньше, чем на Юге, но по ряду причин быстро потеряло свои позиции, а также Северный и Приволжский районы, где имелось производство отдельных видов железных труб, а в отношении чугунных труб – это в первую очередь Центральный и Уральский районы, где производство, как правило, было распределено по небольшим предприятиям. Из прочих заводов здесь можно выделить машиностроительный завод Гартмана и Ижорский завод, где выпускались в том числе высокотехнологичные бесшовные трубы, применяющиеся в производстве паровозов и военных судов. Безусловно, имелись и другие заводы, каждый из которых внес свой вклад в развитие трубного производства России. В целом типология трубной продукции в рассматриваемом периоде уже была достаточно сложна и близка к современной, где можно выделить трубы по виду используемого сырья и производства (железные, чугунные, из других материалов), виду производства (сварные, бесшовные, литые, клепанные и пр.), отрасли использования (жилищно-коммунальное хозяйство, нефтяная отрасль, машиностроение и пр.), наименованию (обсадные, бурильные, котельные, водопроводные и пр.), а также по другим признакам.

Дополнительно отметим значительный объем трубной продукции среди других видов металлургического производства. Как видно из таблицы 1, в целом по Российской империи в 1905 г. доля чугунных труб от всего объема производства второго продукта Б составила 11,8 %, а в 1915 г. – уже 13,0 %, доля же железных труб от типа продукта IV составила, соответственно, 29,8 % и 41,9 %. По району Южной России аналогичные доли, в особенности в отношении чугунных труб, составили более высокие значении: в 1905 г. –23,4 % и 52,4 % и в 1915 г. – 22,2 % и 47,0 %, что подтверждает высокое значение региона в отрасли. Так как Южный район являлся безусловным лидеров в производстве трубной продукции, по которому также имеется развитая статистика, то в рамках информационной статистической базы ему отведено особое значение, и отдельные таблицы посвящены именно этому региону.

Также необходимо отметить постоянное снижение доли импорта трубной продукции на внутреннем рынке. Это касается в первую очередь железных труб, так как чугунные трубы по объективным причинам импортировались в очень незначительных объемах, а их доля от внутреннего рынка была ничтожна. Так, в 1870 г. доля импорта на внутреннем рынке Российской империи по железным трубам составляла 100 %, т.е. все трубы, потребляемые внутри страны, были импортного производства. В дальнейшем, вследствие расширения внутреннего рынка и при проведении протекционисткой политики государства, последовало строительство на юге Российской империи крупнейших трубных заводов, в результате чего уже в 1888-1892 гг. среднезвзвешенная доля импорта составляла 20,3 % [14, с. 210] при производстве в год стальных труб в 300 тыс. пуд [14, с. 59] и импорте в 76,3 тыс. пуд. [14, с. 49]. В начале XX века подобные тенденции продолжились, в связи с чем доля импорта еще упала, составив 14,6 % от внутреннего рынка в 1905 г. и в 1915 г. – 7,9 % [4, 7, расчеты автора]. При этом в объеме импорта железных изделий доля железных труб увеличилась с 1905 г. по 1915 г. на 2,6 п.п. (с 19,5 % до 22,1 %), а в общем объеме всех готовых изделий, включая чугунные, снизилась 1,9 п.п. (с 9 % до 7,1 %), что представлено в таблице 2.

Таблица 2. Объем импорта готовых железных изделий и трубной продукции в Российскую империю, пуд. [4, 7, расчеты автора]*

*Все статьи таможенного тарифа, за исключением 150 3 в 1905 г.

Как уже было сказано, на рынке импортных чугунных труб практически не было: в 1905 г. они составляли только 0,04 % объема рынка, а в 1915 г. – 0,2 % [4, 7, расчеты автора]. При этом необходимо отметить, что отмеченный объем импорта в таблице 2 в 1905 г. по чугунным трубам не включает в себя данные статьи таможенного тарифа 150 3, по которой трубы импортировались в небольших объемах, но отдельно не выделялись. В 1906 г. произошло изменение статей таменного тарифа, в результате чего чугунные трубы стали выделяляться более предметно, а статистика в отношении них них стала значительно точнее, что послужило возможностью их включения в расчеты.

Таким образом, изготовление труб в России в начале XX в. стало одним из важных направлений металлургического производства, обеспечивая своей продукций такие отрасли как нефтяная промышленность, жилищно-коммунальное хозяйство и машиностроение. При этом трубное производство с момента своего зарождения в сер. 80-х гг. XIX в. являлось одним из наиболее технически развитых направлений металлургии, где использовались самые современные на тот момент технологии. В связи с этим изучение трубной промышленности является важным и интересным аспектом развития всей металлургии Российской империи. При этом, несмотря на важность подотрасли, история трубного производства ранее не рассматривалась в отечественной историографии в качестве самостоятельного объекта исследования.

Также необходимо отметить высокую роль и статус статистических источников в исследовании черной металлургии, как, впрочем, и других отраслей промышленности. В особенности значение статистических источников стало возрастать при активном развитии металлургии как отрасли во время экономического подъема 90-х гг. XIX в. и окончательном становлении отраслевой и государственной статистики. Изданные в этот период и вплоть до 1917 г. статистические сборники достаточно широко вовлечены в научный оборот. Между тем, ни в одном исследовании источниковедческий анализ комплекса приводимых в данных источниках статистических значений в отношении металлургической продукции и оценка их информационного потенциала не были проведены. Отдельные источники нашей коллекции статистических ежегодников подвергались анализу и статистической обработке, что являлось скорее единичными случаями без претензии на комплексную обработку [3, 5]. Таким образом, внимание к трубной отрасли объясняется еще и тем, что, несмотря на наличие богатого статистического материала, статистические источники до сих пор не подвергались систематическому изучению. Также можно констатировать, что изучение структуры и динамики развития отраслей российской промышленности на базе массового статистического анализа в подобном формате до сих пор не проводилось как по трубной отрасли, так и другим отраслям.

В связи с этим далее предлагается подход к созданию тематической информационной базы статистических источников, составляющих основу исследования трубного производства в России и его эволюции, на основе представленных выше этапов.

Этап 1. Выявление комплекса источников и обоснование их достаточной полноты

На основе анализа разнообразных статистических источников было выбрано несколько видов изданий, в которых в различных видах выделялась трубная продукция. В основу ресурса легли 4 основных набора источников, характеризующих производственные, рыночные и социальные аспекты деятельности трубных заводов в к. XIX-нач. XX вв.: 1) «Железная промышленность Южной России [за 1902-1915 гг.]» [4]; 2) «Свод статистических данных по железоделательной промышленности [за 1903-1917 гг.]» [10]; 3) «Сборник статистических сведений о горнозаводской промышленности России [за 1897-1911 гг.]» [9]; 4) «Обзор внешней торговли России по европейской и азиатской границам [за 1898-1915 гг.]» [7]. Дополнительно к ним в целях сравнения отдельных показателей были добавлены еще 5 источников: 1) «Статистические сведения о фабриках и заводах по производствам, не обложенным акцизом, за 1900 г.» [12]; 2) «Статистические сведения по обрабатывающей фабрично-заводской промышленности Российской империи за 1908 г.» [13]; 3) «Материалы по пересмотру торговых договоров. № 9, Свод статистических данных о привозе в Россию руд, металлов и изделий из металлов» [6]; 4) «Привоз иностранных товаров в Россию: свод данных русской статистики внешней торговли за 1900-1911 годы. Ч. 2» [8]; 5) «Статистика несчастных случаев с рабочими горной и горнозаводской промышленности южной России за 1908-1904 гг.» [11]. Общее распределение всех значений используемых значений источников при составлении информационной базы представлено в таблице 3.

Таблица 3. Количественные характеристики используемых источников

*В месячных и годовых периодах.

Именно эти источники, на наш взгляд, являются наиболее репрезентативными с точки зрения представления социально-экономических показателей развития трубной отрасли в к.XIX-нач. XX вв. В данном случае были рассмотрены все известные статистические сборники по промышленному производству и социальным аспектам, по результатам анализа которых было определено, что в них интересующие нас сведения отсутствуют или указаны в гораздо меньшем составе или в неприемлемом для нас виде, не вполне соотносящимся с уже определенными категориями. При этом необходимо отметить, что отдельные виды источников, как, например, статистика перевозок товаров железными дорогами, в которых также можно выделить перевозку трубной продукции, или цены на трубную продукцию, которые напрямую влияют на рынок, не рассматривались в качестве компонент создаваемой базы. Это связано, с одной стороны, с влиянием дополнительных категорий на отдельные элементы рынка, а с другой – с неравномерным распределением этих категорий по периодам и территориям, а также с высокой трудоемкостью процесса. В связи с этим на текущем этапе создания информационной системы было решено ограничиться наиболее существенными (базовыми) элементами, а в последующем уже добавлять дополнительные и трансформировать систему с точки зрений дальнейшей интеграции таблиц.

Этап 2. Разработка структуры цифрового ресурса

Структура цифрового ресурса, как уже было сказано, определяется рядом фактором, связанных как с целями и задачами построения ресурса, так и исходными данными используемых источников, в том числе с форматом представления в них данных. С учетом разнообразия используемых источников для построения информационной базы по трубной отрасли начала XX века были выбраны отдельные таблицы по определенным направлениям, составленные на основе конкретных источников, идентичной конструкции. Соответственно, эти конструкции в виде составленных Excel-таблиц связаны как со структурой данных источников, на основе которого они были составлены, так и содержательной составляющей и логикой построения и связи данных между собой.

На схеме 1 представлен упрощенный сегмент структуры, входящий в основу каждой таблицы информационной базы, с расположенными в нем элементами и пояснениями. На схеме 1 наглядно показано, как показатели, привязанные к уровням расчета (в данном случае одного уровня с условным делением по видам 1.1 и 1.2), располагаются по строкам и напрямую между собой не связаны, но логически характеризуют и дополняют друг друга. При этом внутри каждой категории находятся более мелкие деления, связанные с категорией верхнего уровня. Подобная иерархическая структура в виде повторяющихся сегментов по периодам (в месячных и годичных периодах) в гораздо более сложных и объёмных вариантах характерна для всех составленных таблиц.

Схема 1. Упрощенный сегмент структуры составленных таблиц и расположения в нем составляющих элементов с элементами расчета и пояснениями

Все составленные таблицы информационной базы включают в себя различные показатели и категории значений, которые разделяются по своему местонахождению в таблице. Так, все показатели располагаются по строкам, достаточно структурированы между собой и не имеют дополнительных групп внутри себя (в соседних столбцах они связаны только логически и системно), а категории анализа находятся в шапке составленных таблиц, достаточно слабо структурированы и в абсолютном большинстве случаев делятся на ряд дополнительных подкатегорий (располагаются по строкам ниже – в таблице 4 это условные подкатегории N и M). Например, среди показателей можно выделить следующие: «Тип завода», «Источник данных», «Год» и/или «Месяц», «Название продукции» и др. Отдельно выделяются показатели, которые могут составлять и уровни расчета, к которым в наиболее детализированном виде в первую очередь относятся «Завод» и «Статья таможенного тарифа» (и/или «Название статьи таможенного тарифа»), а в более общем – губернии, группы производств, вид продукции и т.д. Отношение каждого показателя к уровню расчета определяется особенностями каждого источника и нюансами расчета внутри них значений. В целом показателей по каждой составленной таблице, как правило, до 10 штук, наименования которых отражают их сущность. Так, например, категория «Завод» обозначает конкретный завод или сумму значений заводов по их типу или сумму типов заводов, аналогичным образом «Год» и/или «Месяц» – конкретный год и/или месяц и так далее по всем показателям. Характеристика каждого размещенного в таблице значения определяется совокупностью атрибутов, наименования показателей которых размещены в каждой строке, а наименования категорий – в названиях столбцов. Отдельно необходимо отметить, что в каждой составленной таблице в обязательном порядке присутствует ссылка на источник данных, который обозначает два варианта: непосредственно источник («Источник», дополнительно может быть «Таблица в источнике»), откуда получены исходные данные для составления таблицы (полное биографическое описание источника представлено под названием каждой таблицы), а также указания на их расчетное происхождение («Расчет»). В случае отнесения значений напрямую к источнику по каждой строке проставлен номер страницы, непосредственно с которой были выписаны значения. При этом год, а также в случае необходимости месяц отнесения данных к источнику определяется по соответствующим обозначениям показателей «Год» и/или «Месяц» в данной строке. Таким образом, абсолютно к каждой цифре по строкам есть ссылка на источник их происхождения вплоть до обозначения страницы (за исключением таблицы 22, где в связи с рядом особенностей обработки данных не удалось сделать ссылки, так как их число становилось бы очень большим).

Общее число категорий анализа верхнего уровня относительно невелико, где среди базовых можно выделить следующие их виды: «Количество рабочих», «Число пострадавших рабочих», «Размещение рабочих», «Число школ», «Число больниц», «Вид продукции», «Производственные операции», «Участки государственной границы» и другие. Но каждый из этих видов делится в свою очередь на подвиды, которые также могут представлять их себя разные варианты. Подобное разделение может достигать 3-х, а в отдельных случаев 4-х и более уровней, что, конечно, отражается на структуре таблицы и сложности расчетов как при источниковедческом, там и при содержательном анализе.

Также необходимо отметить, что по всем показателям и категориям представлены и обобщенные данные («Всего», «Итого» и пр.), которые относятся к сумме по расчетным группам и включат в себя расчётные данные и данные источника. Соответственно, все расчётные показатели в виде формул присутствуют в каждом сегменте составляемой таблицы и при дублировании сегментов при построении итоговых таблиц дублировались в автоматическом режиме, что облегчало построение структуры и оцифровка данных. При этом данные формулы также являлись важным элементом верификации, проводимой на 4-м этапе, но элементы которой внедрялись в рамках разработки структуры оцифрованного ресурса.

Таким образом, все составленные таблицы унифицированы и структурированы по единой форме и включают в себя значения источников и значительное число расчетных значений на основе формул Excel, распределённых по различным показателям и категориям значений в годовом и/или месячном разрезах.

Конкретный пример соотношения всех названных атрибутов показан в упрощенном виде в таблице 4, представляющей собой фрагмент части информационной базы составленной таблицы 1 («Количество рабочих с разбивкой по цехам, размещению и семейному статусу на металлургических заводах Южной России в 1902-1915 гг.»).

Таблица 4. Фрагмент информационной базы (Таблица 1 « Количество рабочих с разбивкой по цехам, размещению и семейному статусу на металлургических заводах Южной России в 1902-1915 гг.»)

Во фрагменте базы, представленной в таблице 4, атрибут «Завод» является первым уровнем расчета. При этом представленные на фрагменте заводы относятся по своему типу к доменным заводам, а далее в реальной таблице расположены еще передельные заводы, которые также относятся к первому уровню расчета. Сумма же доменных заводов (в таблице 4 – атрибут «ВСЕГО_ГОД») или передельных заводов относится ко второму уровню расчетов, а сумма итоговых значений доменных и передельный заводов – третий уровень. В рассматриваемом фрагменте в связи с упрощенной структурой таблицы уровни расчета также простые и расположены в рамках одного столбца, но в сложных таблицах они могут распределяться по нескольким столбцам и иметь по 4-5 уровней расчета.

Соответственно, по каждому заводу в строках показаны значения количества рабочих по конкретному цеху или всему заводу целиком. Наименования цехов или видов деятельности на заводах, являющиеся здесь категориями, которые характеризуют деятельность предприятия, представлены в названиях столбцов. Три крайних столбца – сумма по каждому заводу или сумма заводов по их типу (в данном случае доменные заводы) по всем цехам, где представлены значения на основе данных используемого при составлении таблицы источника («Источник»), автоматического расчета на основе формул Excel («Расчет») и их разницы. Аналогично строится расчет по всем заводам в рамках одного уровня по каждому цеху или всем цехам (упоминающийся выше атрибут «ВСЕГО_ГОД» в столбце «Завод»), где также выделяется «Расчет», «Источник» и «Разница». Подобные расчеты определяют их виды как горизонтальный и вертикальный, а их перекрестное использование позволяет выделить потенциально ошибочное значение, которого в расстраиваемом фрагменте не обнаружено. Еще раз подчеркнем, что представленный пример – это максимально простая структура, и в большинстве составленных таблиц она имеет гораздо более сложные формы, пик которых представлен в исходных таблицах базы, составленных на основе значений источников, под номерами 12 и 13 и представленных далее.

Этап 3. Оцифровка и систематизация данных

На данном этапе в рамках рассматриваемой информационной базы можно выделить две различных ступени, первая из которых относится непосредственно к оцифровке данных в рамках разработанной структуры, а последующая связана с дополнительной обработкой информации и ее систематизацией в целях дальнейшего анализа.

Оцифровка данных является фактическим переводом всех исходных значений используемых источников в машиночитаемый формат, что в рамках рассматриваемой информационной базы происходило в полуавтоматическом режиме. Так, как уже было сказано выше, структура представленного цифрового ресурса в рамках одной таблицы состоит из повторяющихся сегментов одинакового формата, а также набором формул по постоянным категориям, относящихся к этапу верификации, но служащих в том числе и для упрощения оцифровки. В данном случае происходило занесение количественных значений источников в каждый повторяющийся сегмент или изменение в нем данных при уже присутствующих значениях, отличающихся от ранее занесенных в рамках предыдущего сегмента. Набор формул, который уже введен на первоначальном этапе составления таблицы, в рамках каждого нового сегмента помогал контролировать количество и размер вносимых значений, так как в автоматическом режиме в том числе происходило их сравнение с данными источника.

Все составленные таблицы информационной базы распределены по направлениям исследования, а также используемым для их составления источникам. Всего подобных таблиц было составлено 23 штуки, наименования которых и общие количественные характеристики представлены в таблице 5.

Таблица 5. Наименования составленных таблиц информационной базы и их количественные характеристики

Как видим, общее количество всех используемых значений источников соответствует аналогичным значениям, ранее представленным в таблице 1, а количество расчетных значений превышает их на 53 812 штук, составляя 127 403 штук. Здесь также необходимо отметить, что отдельные исходные таблицы, составленные на базе рассматриваемых источников, состоят из нескольких разных таблиц небольшого формата, что связано с совершенно разной структурой данных используемых источников. Это относиться к составленным таблицам информационной базы под номерами 9, 13 и 25, состоящих, соответственно, из 5, 3 и 2 подобных таблиц меньшего формата.

Помимо оцифровки данных в рамках созданной структуры и составления итоговых таблиц, к каждой из них была составлена так называемая таблица для целей анализа, предназначенная для систематизации данных и упрощения поиска информации и сводом имеющихся данных в единый формат. Все составленные таблицы для целей анализа по своей структуре достаточно близки между собой. В основе каждой подобной таблицы для целей анализа, где все данные группируются в одном столбце с выделением дополнительных критериев, лежит исходная таблица на основе данных источника. Так, обязательными элементами всех подобных таблиц являлись следующие:

1) Помещение всех количественных значений в один столбец;

2) Повтор всех показателей конкретного свода в рамках каждого рассматриваемого этапа по строкам;

3) Перемещение всех категорий количественных значений, которые ранее располагались по столбцам, по строкам и соотношение их с конкретными показателями;

4) Введение дополнительных категорий в отношении ошибочных значений и групп расчета, а также дополнительных категорий, служащих упрощению расчета сводных средневзвешенных значений по различным показателям и категориям.

На схеме 2 представлена упрощённая схема составления таблиц для целей анализа на основе схемы, представленной ранее на схеме 1 отношении условной категории N1. В реальных таблицах для целей анализа происходит перенос в один столбец абсолютно всех значений, а в столбец под наименованием «Категория» переносятся их наименования. Соответственно, при наличии дополнительных категорий вводятся дополнительные столбцы с их обозначением. Также дополнительно вводятся ряд критериев, выделенных в отдельных столбцах, целью которых является проведение расчетов в рамках внутренней и внешней критики источников на 4-м этапе проведения работы.

Схема 2. Упрощенная схема составления таблицы для целей анализа и пояснения к ней

Каждая таблица для целей анализа обладает своей спецификой, но в целом среди дополнительных критериев выделяется обозначение значений в отношении ошибки (первичная ошибка, вторичная ошибка, без ошибки, категория с ошибкой или без нее и т.д.), дополнительный источник информации (источник, вид расчета – по горизонтали, по вертикали, разница или без выделения), отношение к наличию числа (число / пусто), различные дополнительные показатели, способствующие упрощению расчета, и т.д. Таблицы для целей анализа, в зависимости от числа составленных таблиц к каждой исходной таблице на основе данных источника, были условно обозначены по номерам как таблицы по типу от I до V, что связано с наличием различных их видов. В абсолютном большинстве случаев это таблицы по типу анализа I, связанные с простой структурой представления данных в рамках таблиц, на основе которых они были составлены и с аналогичным названием. Но кроме них по отдельным исходным таблицам на основе данных источников были составлены и другие типы таблиц, связанные с анализом показателей по иным параметрам. В рамках дополнительных таблиц по типам анализа были проведены ряд расчетов и введены дополнительные критерии, в результате чего возможности их анализа были значительно увеличены. В первую очередь данные действия относятся к исходной таблице 13, которая характеризуется самым большим объемом данных и сложной структурой представления. В данном случае было составлено целых 5 таблиц по типу анализа, характеризующихся различными категориями данных. Похожая картина, но в менее значительных масштабах также наблюдается и по таблицам 12 и 22. Также отдельные таблицы по типу анализа в рамках исходной составленной таблицы были объединены в одну таблицу по типу анализа I (таблицы 9 и 15), хотя это потребовало значительных усилий с точки зрения адаптации и свода воедино всех различающихся категорий значений. Но единые таблицы по типу анализа в данном случае способствуют более полному анализу всех данных разных источников, на основе которых были составлены исходные таблицы, и учету всех значений в рамках сводных таблиц по различным параметрам. Соответственно, все таблицы для целей анализа под соответствующим номером своего типа находятся в одном файле Excel с исходной таблицей и доступны для скачивания по обозначенной ранее ссылки.

Помимо составленных на основе данных источников исходных таблиц и таблиц для целей анализа, предназначенных непосредственно для расчётов, также были дополнительно составлены так называемые межсводные таблицы МТ I и МТ II, состоящие в своей основе из разных исходных таблиц на основе данных источников, но дополнительно обработанные и соединенные в одну (МТ – Межсводная Таблица). Межсводные таблицы были составлены в целях дальнейшего сравнения источников между собой по всем видам значений в рамках аналогичных критериев, что является важным элементом внешней критики источников. Как понятно из категории номеров, таких межсводных таблиц было составлено две: МТ I на основе таблиц 12 и 13 и МТ II на основе таблиц 17, 21 и 23. Соответственно, для составления данных межсводных таблиц использовалась отдельная методика, которая в настоящей статье не раскрывается, так как это отдельная тема. Но ее суть заключается в выделении полностью совпадающих периодов по разным таблицам, составленных на основе различных источников, приведение всех значений к одной единице измерения и сравнение полученных данных в рамках аналогичных категорий сравнения. Межсводные таблицы в рамках проекта выделены в отдельные файлы Excel и также доступны для скачивания и дальнейшей работы с ними.

Наименования отличающихся таблиц по типам анализа в рамках исходных таблиц на основе данных источников и межсводных таблиц, а также их количественные характеристики представлены в таблице 6. Как видим, общее количество значений с учетом дополнительно составленных таблиц, предназначенных непосредственно для источниковедческого и содержательного анализа, значительно превышает исходные данные источников, что связано с большим количеством дополнительных расчётов.

Таблица 6. Наименования отличающихся таблиц по типам анализа в рамках исходных таблиц на основе данных источников и их количественные характеристики

Именно построение таблиц для целей анализа и межсводных таблиц с сохранением всех исходных количественных значений, полученных при оцифровке исходных данных используемых источников, а также расчетных показателей, позволило проводить их сводных анализ в самой разной конфигурации, что предоставило возможность свести все данные к единым формам со средневзвешенными значениями и провести их верификацию.

Работа с данными таблицами, как, впрочем, со всеми другими аналогичными таблицами для целей анализа, позволяет проводить источниковедческий и содержательный анализ, описание используемых принципов которых представлено далее.

Этап 4. Верификация данных и их источниковедческий анализ

Верификация данных, которой посвящен данный этап, является очень важным элементом всего процесса, так как позволяет подтвердить корректность, точность и достоверность всего массива данных, а не только каждого источника по отдельности.В данном случае под верификацией понимается проверка значений источников и степень сопоставимости их между собой, что является важным элементом критики источников. Здесь фактически можно выделить 2 этапа верификации:

1) Предварительный, когда происходит перенос данных с источника в цифровой формат, после чего следует сверка значений на предмет возможных ошибок переноса;

2) Основной, непосредственно связанный с источниковедческим анализом и заключающийся в анализе данных внутри каждого источника по отдельности (внутренняя критика) и в проверке значений разных источников между собой (внешняя критика). Здесь необходимо отметить, что отдельные источники состоят из разных таблиц, пересекающихся между собой по различным критериям, в связи с чем внутренний анализ фактически состоит из двух частей: проверка значений на предмет ошибок внутри отдельных таблиц источника и сравнение разных таблиц одного источника между собой.

Предварительный этап верификации, как уже отмечалось выше, связан с расчётными показателями в виде формул, присутствующими во всех сегментах всех составленных таблиц, когда при внесении данных происходило их автоматическое суммирование и сравнение их с аналогичными значениями источника. Во всех случаях расхождения между исходными данными источника и данными автоматического расчета проводилась повторная проверка на предмет возможных ошибок при составлении таблицы, где в случае подтверждения расхождений значения источниками признавались ошибками или неточностями. В рассмотренной ранее таблице 4 представлена типичная упрощенная схема расчета. Соответственно, все показатели А и В по каждой из категорий (N и M) являются группами расчета, по сумме которых расчет производился в горизонтальной и вертикальной плоскостях на основе формул Excel («Расчет») и сравнивался с аналогичными значениями источника («Источник»), в результате чего разница значений («Разница») определяла наличие расхождений. Все значения, по которым были выявлены расхождения, и значения, имеющие отношение к их расчету, в сводах в целях их визуализации закрашивались цветом, что также представлено в рассматриваемой таблице. Значения, по которым были выявлены расхождения, по умолчанию признавались ошибочными и по ним производился дополнительные расчеты в рамках верификации и источниковедческого анализа. Как видно из таблицы 4, ошибочные значения закрашивались двумя цветами: темно-зеленым и светло-зеленым, которые обозначают разные типы ошибок, влияющие на дальнейшие расчеты в рамках непосредственно источниковедческого анализа.

Основной этап верификации связан непосредственно с расчетами значений в самых разных конфигурациях в таблицах для целей анализа и межсводных таблицах. Как уже было сказано ранее, при их составлении использовались все значения исходных таблиц на основе данных источника с обозначаемыми их категориями, в том числе по отношению к ошибочным значениям. Далее добавлялись дополнительные столбцы с характеристиками значений, служащих для возможностей расчета в рамках составления сводных таблиц в файле Excel. Именно набор различных показателей и категорий анализа и их взаимосвязи непосредственно определяют качество источниковедческого анализа. В данном случае очень важно четко понимать структуру данных и их выбор в рамках сводных данных, так как зачастую показатели дублируются, накладывается друг на друга или взаимоисключаются. Более того, по отдельным типам таблиц в рамках источниковедческого анализа присутствуют и разные виды расчета, связанные с категориями расчетных показателей, а также уровни расчета. При этом таблицы по типу анализа априори связаны с исходными таблицами, на основе которых они были составлены, а виды расчета — это своеобразные искусственные элементы, показывающие различные варианты расчета показателей.

Также отметим, что расчеты на предмет расхождения показателей уже проведены внутри всех составленных таблиц на основе исходных данных источника, в том числе в отношении каждой таблицы по типу анализа и межсводным таблицам по различным критериям и видам продукции. Подобные расчеты на основе составленных таблиц, входящих в представленную тематическую информационную базу, ранее концептуально уже были проведены и апробированы в рамках проведенных исследований в отношении численного состава и структуры рабочих на трубных заводах России в начале XX века [2] и по анализу значений источника «Железная промышленность Южной России» [1], подтвердив высокий методологический уровень. Методика проведения подобного сравнения требует подробного описания и будет отдельно представлена с конкретными результатами расчетов в рамках отдельной статьи. Здесь только отметим, что ее суть заключается в грамотном определении взаимосвязанных показателей при исключении побочных элементов, искажающих расчёт в рамках выбранных переменных.

Заключение

В результате проведенных расчетов можно констатировать, что анализ таблиц на основе материалов источников позволяет провести комплексную внутреннюю критику источников, а сравнение значений материалов по различным характеристикам между собой определяет их внешнюю критику. Таким образом, источниковедческий анализ массива оцифрованных данных и их верификация связаны с вопросами внутренней и/или внешней критики, которые возникают не только по отношению к каждому использованному источнику по отдельности, но и в целом ко всей итоговой структуре данных, а также их классификации или перечислению в рамках источниковедческих задач.

В целом же в данном исследовании представлен цикл работ и цепочка действий, в результате которых получена выверенная и логически структурированная информационная база, комплексный цифровой ресурс, создающий удобный формат для пользователей в рамках дальнейшей исследовательской аналитической работы. При этом в отношении как общего количества цифровых значений статистических источников, лежащих в основе составленных таблиц, так и расчетных показателей, служащих для удобства использования базы и различных дополнительных операций, данная информационная база является самым большим из известных нам оцифрованных статистических ресурсом по экономической истории дореволюционной России.

References
1. Akimov A.V. «Zheleznaya promyshlennost' Yuzhnoi Rossii» kak istochnik po issledovaniyu trubnoi promyshlennosti nachala XX veka // Istoricheskii zhurnal: nauchnye issledovaniya. — 2018.-№ 4.-S.71-84. DOI: 10.7256/2454-0609.2018.4.26614. URL: https://e-notabene.ru/phzni/article_26614.html.
2. Akimov A.V. Chislennyi sostav i struktura rabochikh na trubnykh zavodakh Rossii v nachale XX veka: istochnikovedcheskii analiz // Istoricheskii zhurnal: nauchnye issledovaniya. — 2019.-№ 3.-S.67-80. DOI: 10.7256/2454-0609.2019.3.28833. URL: https://e-notabene.ru/phzni/article_28833.html.
3. Dinamika rossiiskoi i sovetskoi promyshlennosti v svyazi s razvitiem narodnogo khozyaistva za sorok let (1887-1926 gg.) / pod red. V. A. Bazarova, V. E. Varzara, V. G. Gromana (pred. redkol.) [i dr.]. – M.-L.: Gos. izd-vo, 1929-1930.
4. Zheleznaya promyshlennost' Yuzhnoi Rossii [za 1902-1915 gg.] – Khar'kov: tip. B. Bengis, 1905-1917. – 14 t.
5. Kafengauz L.B. Evolyutsiya promyshlennogo proizvodstva Rossii (poslednyaya tret' XIX v. – 30-e gody XX v.) – M., 1994.
6. Materialy po peresmotru torgovykh dogovorov / Sovet s''ezdov predstavitelei prom-sti i torgovli. Sovet s''ezdov predstavitelei birzh. torgovli i sel. khoz-va. Osobaya komis. po peresmotru torg. dogovorov.-Spb.: Elektro-tip. N. Ya. Stoikovoi, 1911-1917.-26 sm.-№ 9: Svod statisticheskikh dannykh o privoze v Rossiyu rud, metallov i izdelii iz metallov, krome mashin i apparatov, instrumentov i pr. (st. st. 138-166 tamozhennogo tarifa) za 1891-1911 gg., v svyazi s izmeneniyami tamozhennogo tarifa za to zhe vremya.-1913.-[2], XXI, 127 s.
7. Obzor vneshnei torgovli Rossii po evropeiskoi i aziatskoi granitsam za 1898-1915 gg.-Spb : Departament tamozhennykh sborov, 1900-1917.
8. Privoz inostrannykh tovarov v Rossiyu: Svod dannykh rus. statistiki vnesh. torgovli za 1900-1911 gody: Materialy k peresmotru torgovogo dogovora s Germaniei / M-vo finansov. Dep. tamozh. sborov.-Spb.: Tipo-lit. M.P. Frolovoi, 1913.-33 sm.-Ch. 2: Gruppy 6-10. Stat'i tamozhennogo tarifa s 89 po 218.-[1], 2, 365-880, VIII s.
9. Sbornik statisticheskikh svedenii o gornozavodskoi promyshlennosti Rossii za 1897-1911 gg.: Sost. po ofits. dannym.-Petrograd: Gornyi uchen. kom., 1904-1918 – 16 t.
10. Svod statisticheskikh dannykh po zhelezodelatel'noi promyshlennosti za 1903-1917 gg. / M-vo finansov. Red. period. izd. M-va finansov. Tsentr. statistika zhelezodelatel'noi prom-ti – SPb., 1903-1918 gg.
11. Statistika neschastnykh sluchaev s rabochimi gornoi i gornozavodskoi promyshlennosti yuzhnoi Rossii za 1908-1904 gg. pod red. Predsed. soveta s''ezda N.F. fon-Ditmara – Khar'kov: Tip. B. Bengis,1910 g. – 94 s.
12. Statisticheskie svedeniya o fabrikakh i zavodakh po proizvodstvam, ne oblozhennym aktsizom, za 1900 g. / Pod red. V.E.Varzara. SPb.: Izd. Ministerstva finansov, 1903.
13. Statisticheskie svedeniya po obrabatyvayushchei fabrichno-zavodskoi promyshlennosti Rossiiskoi imperii za 1908 g./ Pod red. V.E.Varzara. SPb.: Izd. Ministerstva torgovli i promyshlennosti, 1912.
14. Fabrichno-zavodskaya promyshlennost' i torgovlya Rossii – SPb: tip-ya V.S. Balashova i K i V.F. Demakova, 1893.
Link to this article

You can simply select and copy link from below text field.


Other our sites:
Official Website of NOTA BENE / Aurora Group s.r.o.