Многомерная организация данных в информационных системах анкетирования

Меликов Алексей Владимирович

doi:10.7256/2306-4196.2014.1.10331


	Journal Menu > Issues > Rubrics > About journal > Authors > About the Journal > Requirements for publication > Council of Editors > Peer-review process > Policy of publication. Aims & Scope. > Article retraction > Ethics > Online First Pre-Publication > Copyright & Licensing Policy > Digital archiving policy > Open Access Policy > Article Processing Charge > Article Identification Policy > Plagiarism check policy


	Journals in science databases


	About the Journal

MAIN PAGE > Back to contents

Cybernetics and programming

Reference:

Melikov A.V. Multidimensional data organization in surveys information systems // Cybernetics and programming. 2014. № 1. P. 1-16. DOI: 10.7256/2306-4196.2014.1.10331 URL: https://en.nbpublish.com/library_read_article.php?id=10331

Multidimensional data organization in surveys information systems

Melikov Aleksej Vladimirovich

Postgraduate student, Penza State University

108811, Russia, Moskovskaya oblast', g. Moscow, ul. Salar'evskaya, 14k3, kv. 908

AleksejV.Melikov@gmail.com

Other publications by this author

DOI:

10.7256/2306-4196.2014.1.10331

Received:

18-01-2014

Published:

1-2-2014

Abstract: The author analyzes the advantages of multi-dimensional logic data organization in survey information systems. Author proposes a conceptual model of the process of questioning in the information system, characterized by the presence of processing the results of expert evaluation during their multivariate analysis to decision-making. The author developed a mathematical model of data transformation from the source to relational database storage. Such a representation of multidimensional data model provides a reliable and compact storage in the complex information structures and the ability to highlight important information in the data processing, all of which increases the efficiency of processing expert information, and facilitates the design based on it adaptive, integrable and dynamic information system survey. To achieve the objectives the author uses the theory of information processes and systems, database theory, set theory, graph theory. The author developed a new structure of the data warehouse, based on the algebra of tuples, which increases the reliability and informativeness of the conclusions derived from the data of expert interviews, excluding processing semantically equivalent information and reducing the number of empty values presented in tables hypercubes. The proposed structure of the data warehouse enables to analyze unexpected data not covered by the survey plan, thereby increasing saturation resulting from the processing of expert information terminals.

Keywords:

information system survey, database theory, multidimensional data model, data storage, set theory, algebra of tuples, graph theory, hypercube, measurement, attribute
This article written in Russian. You can find original text of the article here .

Введение

В настоящее время при управлении социально-экономическими системами (СЭС) широко используются информационные системы анкетирования (ИСА) для получения прогнозной оценки реакций системы на возможные управляющие воздействия с использованием Web-технологий в режиме удалённого доступа. Сложность управления СЭС обусловлена:

- сильным влиянием случайных факторов на объект управления (ОУ);

- малой изученностью реакций ОУ на конкретные управляющие воздействия;

- наличием значительного синергетического эффекта;

- трудностями организации мониторинга поведения таких систем;

- присутствием антропогенного фактора, носящего по своей природе нестатистический характер.

Всё это не позволяет в должной мере изучать процессы, происходящие в СЭС, методами математической статистики, затрудняет оценку репрезентативности выборки и исследование поведения системы при изменении параметров прогнозируемого объекта, что в совокупности приводит к значительным погрешностям получаемых прогнозных оценок в задачах управления СЭС. Поэтому при управлении СЭС используют методы экспертного оценивания (ЭО), следовательно, от того какими способами были проведены сбор и обработка экспертной информации (ЭИ), будет зависеть достоверность полученной прогнозной оценки реакций СЭС на возможное управляющее воздействие.

На основании проведённого анализа существующих программных продуктов сбора и обработки данных («Analysis Services» и «Excel» компании Microsoft, «Data Mining» компании Oracle, «Deductor» компании BaseGroup и web-сервисов, таких как «ProstOpros» и «WebAnketa») были выявлены недостатки в обработке и анализе ЭИ, следствием которых является низкая информативность данных, так как:

- зачастую обрабатывается семантически эквивалентная информация;

- присутствует большое количество пустых значений показателей в таблицах гиперкубов;

- отсутствует возможность проведения анализа данных, не предусмотренного планом анкетирования;

- не учитывается степень уверенности эксперта в каждом из вариантов ответа;

- недостаточно полно и точно взвешиваются мнения экспертов, имеющие несколько различающихся по степени уверенности прогнозных оценок реакции СЭС на возможные управляющие воздействия ^{[1, с. 21]}.

Концептуальная модель процесса анкетирования информационной системы

Общепринятый процессный подход к процедуре анкетирования, используемый во многих информационных системах (ИС), обнаруживает свои недостатки, проявляемые, с одной стороны, в виде ограниченности методов анализа данных, а с другой – отсутствии прогнозной оценки в задаче управления. Это можно объяснить следующими причинами:

- во-первых, одни проекты составляются только для проведения опроса и вывода статистики, что является неприемлемым для решения ёмких задач управления;

- во-вторых, другие – исключительно для работы в конкретной предметной области (включая базы данных (БД)), что позволяет проводить более углубленный анализ данных, не допуская дальнейшего использования подобных ИСА в широком спектре деловых услуг ^[2].

По этим причинам был разработан процессный подход к процедуре анкетирования (рисунок 1), отличающийся от существующих наличием процессов дополнительной обработки результатов ЭО при проведении их многомерного анализа с целью принятия управленческих решений. ЭИ, собранная системой анкетирования, преобразуется в агрегированные данные многомерного хранилища, при анализе которых проверяется уровень значимости атрибутов экспертов, влияющих на компетентность в предметной области, и учитывается степень уверенности эксперта в каждом из вариантов ответа, что позволяет повысить информативность выводов, получаемых в результате обработки данных экспертных опросов.

Рисунок 1 – Процесс анкетирования (расширенный) в стандарте IDEF

Администратор БД посредством системы анализа данных импортирует информацию, собранную ИСА, преобразуя её в агрегированные данные, которые загружаются в хранилище данных (ХД). Преимуществом процесса 5 является автоматизированный способ определение и построение иерархий с использованием зависимости оперативной БД как исходной с иерархиями атрибутов в измерениях гиперкуба, что приводит к сокращению времени, необходимого для формирования схемы многомерной модели данных (ММД) ^[3].

В соответствии с предложенным процессным подходом к процедуре анкетирования появилась необходимость в разработке математической модели преобразования данных экспертных опросов из исходной БД в агрегированные данные хранилища, позволяющей обработать данные в иерархиях, изначально не предусмотренных при сборе ЭИ ^[4]; что, в свою очередь, повысит достоверность прогнозной оценки реакций системы и, как следствие, улучшит управление СЭС в целом.

Математическая модель преобразования экспертной информации из исходной реляционной базы в хранилище данных

`[[a,b],[c,d]]` В работе для реляционных БД, которые используются как исходные данные для гиперкубов, определены функциональные и многозначные зависимости. Данные зависимости используются при создании иерархий многомерной модели (ММ). Поскольку «схема иерархий» – это ориентированный ациклический и слабо связанный граф

H = (A, E) , где

A – множество атрибутов, состоящее из подмножеств C,D ; E – множество дуг,

- то для функциональной зависимости C⟶D – где атрибуты из множества D располагаются в иерархии выше, чем атрибуты из множества C ,

так как различные значения C определяют одинаковое значение D , и для атрибутов справедливо: C_k∈ C, D_l∈ D ∀k, l C_k≺ Dl – добавляется дуга C_k'D_l' ;

- а для многозначной зависимости C ⟶- D(E) – где атрибуты из C располагаются в иерархии выше, чем атрибуты из D ∪ E , так как при существовании двух кортежей, совпадающих по C , существует ещё два кортежа с тем же значением C , и для атрибутов справедливо C_k∈ C,I_l∈ D ∪ E ∀k, l I_l≺ C_k , где I подобно C – добавляется дуга D_l'C_k' .

Таким образом, в граф H добавляются вершины для атрибутов из множества L , отсутствующих в схеме иерархий в качестве вершин (рисунок 2) ^[5].

Рисунок 2 – Алгоритм построения H

Однако существуют некоторые последовательности уровней, которые могут многократно использоваться в иерархиях измерений гиперкубов. Связь между такими атрибутами установить не всегда получается посредством зависимостей, которые задаются для исходной БД ^{[6, с. 219]}. Отсюда следует, что для этих атрибутов задание отношения ≺ на множестве атрибутов предоставляется пользователю. Иерархии, которые были заданы пользователем, будут использоваться при формировании схемы иерархии. Кроме того, иерархии в измерениях необходимы как для реализации операций анализа данных, так и для структурирования заголовков пользовательского представления.

Преобразование информации, собранной ИСА, в данные для их дальнейшего многомерного анализа осуществляется в 2 этапа. На 1 этапе происходит сбор информации в БД системы анкетирования и её первичное преобразование. На 2 этапе уже помещённая в ХД информация агрегируется и преобразуется в конечную структуру, позволяющую осуществить многомерный анализ этих данных. Например, информацию о группах в исходной БД представляется в виде множества: R₁={a₁,a₂,a₃,a₄,a₅,…,a_m} , где a₁ – название, a₂ – идентификационный номер, a₃ – пароль, a₄ – разрешения, a₅ – описание и т.д. В свою очередь название группы записывается в виде подмножества a₁={k₁,k₂,k₃,k₄,…,k_q} , в котором после разложения составного названия на простые смысловые части выбирается k₁ – идентификатор даты, k₂ – идентификатор группы и т.д. При k₃∩ K=k* , где K – множество всех идентификаторов соответствующего измерения, получается искомое множество k*{k₁*,k₂*, …,k_l*} для многомерного ХД, в котором k₁* – идентификационный номер измерения низшего уровня, k₂* – его описание и т.д. Таким образом, исходный атрибут из R₁ обрабатывается как подмножество, в котором каждый атрибут (k₁ ) пересекается с множеством всех однотипных атрибутов (S). В результате получается искомое множество s*{s₁*,…,s_o*} для многомерного ХД из Y_i (i=1,2,…,n) – множество атрибутов из исходного реляционного отношения R (рисунок 3) ^[7].

Рисунок 3 – Пример получения s*

Из данных результатов анкетирования, списка тестов, вопросов и ответов формируется массив, в котором каждая строка является одним фактом, т.е. одним ответом на один вопрос. Сформировав конечный массив данных фактов, производится их циклическая построчная запись в ХД, в таблицу фактов. После этого начинается 2 этап преобразования – агрегирование данных, которое осуществляется следующим образом: сначала происходит обработка данных и получение общей статистики результатов анкетирования, затем – детальная статистика, в том числе и по вопросам, подразумевающим ручной ввод ответов ^{[8, с. 112]}. Импортирование осуществляется выполнением скриптов, написанных на языке php, на сервере, где размещаются БД систем. Для функционирования скриптов необходимо наличие Web-сервера Apache с установленным дополнением, позволяющим обрабатывать php файлы.

Одним из условий эффективной организации данных является снижение занимаемого объёма памяти на дисковом пространстве ЭВМ. Сначала следует скорректировать некоторые известные понятия применительно к данной области исследования. Гиперкуб является набором связанных реляционных таблиц, есть самостоятельный объект. Срез гиперкуба G называется вырожденным по показателю, если значение этого показателя во всех элементарных ячейках среза равно 0 . Вес гиперкуба – его размерность, помноженная на количество конкретных для него показателей:

V_G=k₁×k₂×…×k_n×m , где

m – количество определённых для гиперкуба показателей g , k_i – количество значений по измерению f_i (i = 1,2,…,n). При снижении количества пустых (нулевых) значений показателей, т.е. при увеличении плотности гиперкуба, модель организации данных становится улучшенной. Пусть один из показателей в срезе гиперкуба равен 0 . Тогда имеет место следующее разложение исходного гиперкуба, которое записывается в виде суммы нескольких гиперкубов меньших размерностей:

.jpg

В результате получается, что суммарный вес разложения меньше веса исходного гиперкуба. Для достижения максимального улучшения модели данная процедура проводится итерационно по другим измерениям гиперкубов до исчезновения срезов, вырожденных по показателю ^[9].

Таким образом адаптируется процедура описания структуры информации для хранилищ и других БД, которые основаны на методе многомерного хранения, а представленная процедура оптимизации допускает экономию дискового пространства. Однако процесс разбиения одного из гиперкубов на множество меньших может усложнить алгоритмы доступа к данным и, что разумеется, увеличить время впуска к ним. Вследствие чего, необходимо проводить дополнительные исследования для поиска критерия эффективности процесса оптимизации данных.

В соответствии с требованиями ММ описания аналитического пространства в терминах «мера» и «измерение» были выделены следующие группы измерений:

- структура трёхуровневого измерения представляется как r(R)={<x,y,z>|P(x,y,z)} , где r – отношение со схемой R ; <x,y,z> – упорядоченная последовательность кортежей; P(x,y,z) – тернарный предикат первого порядка, который определяется на примере высказываний относительно данного измерения x=x₁,x₂,…,x_m ; y=y₁,y₂,…,y_n ; z=z₁,z₂,…,z_q – кортежи переменных, которые показывают имена атрибутов уровней этого измерения;

- отношение на множестве атрибутов двухуровневого измерения описывается как r(R₄)={<b,c>|P₄(b,c)} , где b – кортеж атрибутов одного уровня измерения; c – кортеж атрибутов другого уровня измерения; P₄(b,c) – бинарный предикат, который определяется на примере высказываний относительно имён атрибутов данного измерения;

- отношение для одноуровневого измерения задаётся посредством предиката P₇(h) , который определяется как r(R₇)={h|P₇(h)} , где h – кортеж атрибутов рассматриваемого измерения.

Формализованное описание структур данных сводится к ансамблям системных графов или к формальным структурам специального вида. Вместе с этим построение ММД позволит выявить логику образования таких структур из независимо формализованных компонентов. Многомерное представление данных осуществляется на основе прямой композиции частей структуры данных и допускает выполнение операций детализации, проекции, среза и консолидации при обработке данных.

При построении моделей запросов формируются схемы отношений, описывающие одну таблицу ХД. Посредством объединения атрибутов однотипных схем отношений, задаётся произвольная совокупность многоместных отношений, выраженных в специфической структуре, называемой C-системой (S[XYZ] ), которая описывает структуру ХД. Например, S[FKPRT]=`[[{R},{PT}],[{P},{K}],[{K},{F}]]`, где F,K,P,R,T – измерения. В результате транзитивного замыкания получается: S'[FKPRT]=`[[{R},{PKFT}],[{P},{KF}],[{K},{F}]]`` ` (рисунок 4).

Рисунок 4 – Пример построения транзитивного замыкания для графа

Для формируемых C-систем выполняются аксиомы матроидов, что позволяет представить схему ХД в виде классификации подмножеств исходного множества, представляющей собой обобщение идеи независимости элементов. Такое представление структуры ХД позволяет решить задачу уменьшения диаметра графа с использованием «жадного» алгоритма. Максимальная длина дуги графа – вычисленная из выражения r(v_i)=max_jd(v_i,v_j) , где d – элементы графа D(G) с расстояниями v_i,v_j (i,j=1,2,…,n , где n – количество вершин графа) – не превышает его диаметра (рисунок 5) ^{[10, с. 66, 11]}.

Рисунок 5 – Матрица расстояний между вершинами системного графа БД

Такое представление многомерной модели данных, во-первых, обеспечивает надёжное и компактное их хранение в сложных информационных структурах и возможность выделения значимой информации в процессе обработки данных, что в совокупности повышает эффективность обработки ЭИ и, как результат, достоверность прогнозной оценки реакций СЭС, во-вторых, способствует проектированию на её основе адаптивной, интегрируемой и динамичной ИСА ^[12].

Выводы

Во-первых, разработана новая структура ХД, основанная на алгебре кортежей, повышающая надёжность и информативность выводов, получаемых в результате обработки данных экспертных опросов, исключая обработку семантически эквивалентной информации и снижая количество пустых значений показателей в таблицах гиперкубов, что в совокупности позволяет сэкономить занимаемый объём дискового пространства ЭВМ, в среднем, на 30 % .

Во-вторых, разработанная структура ХД даёт возможность осуществить анализ данных, не предусмотренный планом анкетирования, что способствует повышению насыщенности полученных в результате обработки ЭИ выводов.

В-третьих, предложенная многомерная логическая схема данных реализована в программном обеспечении в виде ИСА «Апофаси», которое успешно внедрено:

- в ФГБОУ ВПО «Пензенский государственный университет» в управлении системой менеджмента качества;

- в администрации Железнодорожного района г. Пензы при управлении деятельностью органов местного самоуправления;

- в ЗАО ПФК «Аттика» (г. Волгоград) при получении прогнозных оценок мнений группы экспертов о развитии параметров, характеризующих остаточный ресурс оборудования.

На систему было получено свидетельство о регистрации электронного ресурса № 17686 от 14.12.2011 г.

References

1. Melikov, A.V. Obrabotka i analiz ekspertnoi informatsii dlya upravleniya sotsial'no-ekonomicheskimi sistemami: dis. … kand. tekhn. nauk: 05.13.10 / Melikov Aleksei Vladimirovich. – V., 2013. – 136 s.
2. Melikov, A.V. Modeli predmetnoi oblasti sistem elektronnogo anketirovaniya / A.V. Melikov, P.P. Makarychev // Psikhologo-pedago-gicheskii zhurnal «Gaudeamus». – Tambov: Izdatel'skii dom TGU im. G.R. Derzhavina, 2010. – № 2 (16). – S. 59-60.
3. Redreev, P.G. Postroenie ierarkhii v mnogomernykh modelyakh dannykh / P.G. Redreev // Izvestiya Saratovskogo universiteta. – 2009. – T. 9. – Vyp. 4 (1). – S. 84-87.
4. Kamaev, V.A. Kognitivnyi analiz kachestva podgotovki spetsialistov v vuzakh / V.A. Kamaev, M.A. Zabolotskii, I.A. Polyakova, A.V. Tikhonin // Sovremennye naukoemkie tekhnologii – Moskva, 2005. – № 6. – S. 26-27.
5. Melikov, A.V. The possibility and the way of hierarchic construction of informational questionnaire system in the system of operational data analysis / A.V. Melikov // Sbornik nauchnykh trudov Sworld. – Odessa: Chernomor'e, 2011. – Tom 2. – № 2. – S. 13-18.
6. Burbaki, N. Teoriya mnozhestv / Per s fr. G. F. Fedotenko. – 2-e izd. – M.: MGU, 2010. – 456 s.
7. Melikov, A.V. Primenenie teorii mnozhestv dlya organizatsii dannykh iskhodnoi relyatsionnoi bazy dannykh / A.V. Melikov // Prikaspiiskii zhurnal: upravlenie i vysokie tekhnologii. – 2011. – № 4 (16). – S. 16-22.
8. Zykin, S. V. Formirovanie giperkubicheskogo predstavleniya relyatsionnoi bazy dannykh / S. V. Zykin. – M.: Izd-vo «Nauka», 2006. – 532 s.
9. Melikov, A.V. Organizatsiya poluchennykh dannykh relyatsionnoi bazy dannykh po izmereniyam / A.V. Melikov, D.A. Podsekin // Sb. statei VII Mezhdunarodnoi NPK. – P.: Privolzhskii Dom znanii, 2011. – S. 87-89.
10. Berezina, L. Yu. Grafy i ikh primenenie. Uchebnoe posobie / L. Yu. Berezina. – 2-e izd., ispr. i dop. – M.: Prosveshchenie, 2009. – 232 s.
11. Melikov, A.V. Data organization of the relational database with the usage of set theory / A.V. Melikov // Sbornik konferentsii NITs «Sotsiosfera». – Penza-Ulan-Ude-Erevan: OOO NITs «Sotsiosfera», 2011. – № 27. – S. 42-47.
12. Kamaev, V.A. Analiz anketnykh dannykh i otsenki prognoznogo resheniya na ikh osnove k zadache upravleniya / V.A. Kamaev, A.V. Melikov // Izvestiya Volgogradskogo gosudarstvennogo tekhnicheskogo universiteta. – 2012. – № 15 (102). – S. 90-96.
13. Luchinin Z.S. Struktura dannykh dlya dokumento-orientirovannykh baz dannykh // Programmnye sistemy i vychislitel'nye metody. - 2013. - 3. - C. 230 - 232. DOI: 10.7256/2305-6061.2013.3.10772.
14. Shelemet'eva Ya.V. Issledovanie tekhnologii udalennogo pryamogo dostupa k pamyati v arkhitekturakh vysokoproizvoditel'nykh sistem // Programmnye sistemy i vychislitel'nye metody. - 2013. - 3. - C. 250 - 256. DOI: 10.7256/2305-6061.2013.3.10773.

Link to this article

You can simply select and copy link from below text field.