Методы статистического анализа исторических текстов (часть 2)

Name: Методы статистического анализа исторических текстов (часть 2)
Author: Фоменко Анатолий Тимофеевич--

На нашем литературном портале можно бесплатно читать книгу Методы статистического анализа исторических текстов (часть 2), Фоменко Анатолий Тимофеевич-- . Жанр: История. Онлайн библиотека дает возможность прочитать весь текст и даже без регистрации и СМС подтверждения на нашем литературном портале bazaknig.info.

Жанр: Научно-образовательная / История

Название: Методы статистического анализа исторических текстов (часть 2)

Автор: Фоменко Анатолий Тимофеевич

Дата добавления: 15 январь 2020

Количество просмотров: 309

Читать онлайн

Методы статистического анализа исторических текстов (часть 2) читать книгу онлайн

Методы статистического анализа исторических текстов (часть 2) - читать бесплатно онлайн , автор Фоменко Анатолий Тимофеевич

Внимание! Книга может содержать контент только для совершеннолетних. Для несовершеннолетних чтение данного контента СТРОГО ЗАПРЕЩЕНО! Если в книге присутствует наличие пропаганды ЛГБТ и другого, запрещенного контента - просьба написать на почту [email protected] для удаления материала

ВПЕРЕД

Перейти на страницу:

Первые работы в указанной области были опубликованы еще в 30-х годах (см.ссылку в [539] на работу Шьюхарта, посвященную задаче скорейшего обнаружения). Однако, строгой теории тогда построено не было. В 50-х годах появились работы Пейджа [540], [541], где был предложен метод обнаружения "разладки" как в ретроспективном, так и в скорейшем варианте. Этот метод, получивший впоследствии название метода кумулятивных сумм, и основанный на последовательном вычислении функции правдоподобия, оказался удобным с точки зрения организации расчетов и практически эффективным. Примерно в это же время А.Н.Колмогоров дал строгую постановку задачи о скорейшем обнаружении момента "разладки" для винеровского процесса, сформулировав ее как некоторую вероятностную экстремальную проблему. Эта проблема была решена А.Н.Ширяевым, который нашел в указанной ситуации оптимальный метод обнаружения. Итог исследованиям А.Н.Ширяева в этой области подведен в книге [542].

Интерес к проблематике задач о "разладке" стал возрастать с середины 60-х годов, что вызывалось потребностями приложений. При этом основные усилия исследователей направлялись на то, чтобы разработать методы, использующие как можно меньше априорной информации. Дело в том, что оптимальные и близкие к ним методы основаны на точном знании функций распределения до и после момента "разладки" и функции распределения момента "разладки" (если он случаен). Такую информацию трудно получить во многих интересных практических приложениях. В связи с этим обстоятельством стали развиваться минимаксные методы (позволяющие избавиться от информации о функции рапсределения момента "разладки") и непараметрические методы, позволяющие отказаться от информации о рапсределениях случайной последовательности. Большие обзоры работ по этой проблематике за последние 15-20 лет содержатся в работах [543]-[545].

Работы авторов настоящей работы были в числе первых работ в области непараметрических методов решения задач о "разладке". С самого начала мы стремились синтезировать такие методы, которые можно достаточно легко применять для решения практических задач. В этом отношении именно непараметричесике методы, не использующие априорную информацию о распределениях, представляются наиболее подходящими.

Итог нашим исследованиям в рассматриваемой области математической статистики подведен в книге [546]. Здесь мы изложим основные идеи нашего подхода применительно к ретроспективным методам обнаружения "разладки", т.к. именно эти методы использовались для анализа исторических текстов.

Наша методология основана на двух основных идеях. Первая состоит в том, что обнаружение изменения любой функции распределения или какой-либо иной вероятностной характеристики может быть (с любой степенью точности) сведено к обнаружению изменения математического ожидания в некоторой новой случайной последовательности, сформированной из исходной. Поясним это положение на следующем примере. Пусть анализируется случайная последовательность

X = {x } ,

"склеенная" из двух строго стационарных случайных последовательностей

1 t=1

склейки n .

Пусть известно, что X и X отличаются между собой одной из двумерных функций распределения, а именно, предположим, что функция

P{x u , x u } = F(u ,u ) до момента t = n - 2 равна F ( ),

а при t t = n +1 - F ( ), причем F ( ) - F ( ) > 0, где -обычная sup-норма. Хорошо известно, что функция распределения конечномерного случайного вектора может быть приближена равномерно с любой точностью функцией распределения случайного вектора с конечным числом значений. Отсюда следует, что при разбиении плоскости R на достаточно большое число непересекающихся областей A , j=1,...,r, вектор (x ,x ) можно аппроксимировать по распределению вектором с конечным числом значений. Поэтому, если ввести новые случайные последовательности

(I(A) - индикатор множества А), то хотя бы в одной из этих последовательностей происходит изменение математического ожидания. Следовательно, если существует алгоритм, обнаруживающий изменение математического ожидания, то этот же алгоритм обнаружит и изменение функции распределения. Аналогично можно обнаружить и изменение произвольной вероятностной характеристики. Например, если в последовательности меняется корреляционная функция, то рассматривая новые последовательности V ( ) = x x , =0,1,2,..., мы сведем задачу к обнаружению изменения математического ожидания в одной из последовательностей V ( ).

Указанное обстоятельство позволяет ограничиться разработкой только одного, базового, алгоритма, который может обнаруживать изменение математического ожидания, а не создавать (вообще говоря, бесконечное) семейство алгоритмов для обнаружения изменений тех или иных вероятностных характеристик.

Вторая идея нашего подхода заключается в использовании для обнаружения моментов "разладок" семейства статистик вида

Y (n) = [(1 - - )] [ - x - x ] (1)

где 0 1, 1 n N-1, X= {x } - исследуемая реализация, и некоторых производных от этих статистик.

Семейство (1) представляет собой обобщенный вариант статистики Колмогорова-Смирнова, которая используется для проверки совпадения или различия функций распределения у двух выборок (при фиксированном n). Можно показать, что статистики вида (1) асимптотически (при N--> и сохранении соотношения между объемами "склеенных" реализаций) минимаксны (т.е. минимизируют максимально возможную вероятность ошибки оценивания момента "разладки") по порядку.

Указанные идеи (подробнее см.[546]) воплощены в комплексе прикладных программ VERDIA для персональной ЭВМ типа IBM-PC. Этот комплекс позволяет в диалоговом режиме обнаруживать "разладки" произвольной случайной последовательности. При помощи комплекса VERDIA нами был проведен анализ ряда конкретных исторических текстов. Результаты этого анализа изложены в следующем Дополнении 2 к настоящей книге.

ДОПОЛНЕНИЕ 2.

Б.Е.Бродский, Б.С.Дарховский, Г.В.Носовский, А.Т.Фоменко.

ВЫЯВЛЕНИЕ ОДНОРОДНЫХ И НЕОДНОРОДНЫХ ФРАГМЕНТОВ ВНУТРИ

РУССКИХ ЛЕТОПИСЕЙ, РИМСКИХ И ГРЕЧЕСКИХ ХРОНИК, В БИБЛИИ.