Методика математического моделирования программы развития сельскохозяйственного предприятия. Успехи современного естествознания

Математик Константин Воронцов о применении задач машинного обучения в бизнесе, композициях адаптивных моделей и усовершенствовании качества данных

Десять лет назад одна крупная розничная сеть объявила тендер на решение задачи прогнозирования объемов продаж в своей сети. Задачи прогнозирования решают почти все крупные ретейлы, потому что это им необходимо для планирования закупок. Конкурсные условия ставились следующим образом: нам давались данные за два года - это ежедневные продажи примерно 12 000 товаров в одном из магазинов сети, тендер был закрытым, кроме нас на него позвали еще шесть компаний. Среди них были очень крупные вендоры аналитических решений для ретейла. Мы, конечно, оценивали наши шансы выиграть в этом тендере как небольшие.

Условием ставилось составить прогноз продаж на две недели, которые следовали непосредственно за теми двумя годами, по которым были данные. Организаторы конкурса предложили свой функционал качества, по которому мерилось качество прогнозов. Этот функционал был немного нестандартным. Организаторы решили учесть, что в этом функционале складывается большое количество товаров и нехорошо, когда вы складываете штуки с килограммами, поэтому это была сумма по всем товарам, а в знаменатель им пришлось поставить саму прогнозируемую величину. Это был не очень понятный ход, так обычно не делают. Мы предупредили организаторов конкурса, что функционал немного странный, другие участники конкурса их тоже об этом предупреждали, но тем не менее в этом решении тоже была своя логика, и конкурс состоялся при таких условиях.

Обычно прогноз потребительского спроса - точнее, объемов продаж - делается методами прогнозирования, которые очень давно известны в статистике. В целом они основаны на методе наименьших квадратов, где в функционале есть суммы по товарам, суммы по моментам времени и квадрат разности прогноза алгоритма и реального объема продаж для этого товара в этот день. Так обычно устроен функционал, и во всех стандартных решениях минимизация такого функционала позволяет настраивать алгоритм прогнозирования.

Есть много простых, быстро работающих, тоже давно известных, еще с 1960-х годов, методов, которыми мы начали пользоваться, для того чтобы решить задачу прогнозирования. Это методы экспоненциально скользящего среднего, модели Брауна, Тейла - Вейджа, Хольта - Винтерса и так далее. Некоторые из них учитывают сезонность. Сезонность не надо понимать как зима - лето, а скорее как будни - выходные, то есть недельная сезонность. Многие товары действительно продаются по будням и выходным по-разному. Мы сразу поняли, что наши крупные конкуренты в этом тендере будут использовать стандартные подходы: они будут использовать метод наименьших квадратов, потому что у них есть готовые решения, и довольно трудоемкие вычислительные методы вроде нейронных сетей или же авторегрессии. И мы решили пойти другим путем и использовать простые методы с пониманием того, что у каждого товара много своих особенностей. Есть много моделей, но неизвестно, какая модель для каждого товара будет наилучшей. Более того, мы даже предположили, что товар время от времени переключает свою модель и его сначала, может быть, лучше прогнозировать одной моделью, а потом в какой-то момент другая модель начнет работать лучше. Поэтому мы сделали адаптивную композицию простых адаптивных моделей. В каждый момент времени мы выбираем ту модель, которая в последнее время работала лучше, давала более точные прогнозы, переключаемся на нее, и именно она дает прогнозы. Первое решение, которое было сделано, - пользоваться композицией простых моделей, вместо того чтобы строить что-то более сложное.

Второе решение заключалось в том, что мы осознали, что функционал нестандартен, и, как учили на первом курсе физтеха, мы взяли этот функционал, продифференцировали по параметрам модели, приравняли нулю производные и получили некую систему уравнений, из которой вывели новый метод. В принципе это работа для математика на один вечер, но мы догадывались, что наши конкуренты так поступать не будут, потому что у них есть готовые решения, они в них сильно верят. Как оказалось, мы действительно не прогадали.

Еще одна особенность этой задачи - то, что были большие интервалы неслучайного отсутствия спроса. Представьте себе: товар продается стабильно ежедневно, и вдруг вы видите, что две недели этого товара нет вообще. Это, конечно, связано не с тем, что спрос отсутствует, а с тем, что товар просто не привезли, его не было на полках, не было на складе. Такие интервалы отсутствия спроса мы просто вырезали из обучающих данных, чтобы они не повлияли на результат.

Настал день, когда мы показывали наше решение организаторам конкурса. Мы знали, что перед нами выступал один из наших крупных конкурентов, и, когда организаторы спросили: «А сколько часов вычисляет ваша модель?», мы удивились и сказали: «Вы разве не поняли, что мы только что на моем ноутбуке за одну минуту и восемь секунд не только подсчитали все прогнозы, но и обучили нашу модель на двухлетнем интервале?» Это было, конечно, шоком. В итоге наша модель оказалась не только самой точной, но еще и самой быстрой. Мы показали, что все прогнозы по всей сети можно считать буквально за два часа, ночью, на старом сервере и что даже никакого нового оборудования закупать не надо.

Это не только история успеха, но еще и очень поучительная история: во-первых, не надо бояться применять нестандартные методы, и если задача поставлена нестандартно, то только математик может быстро найти решение - хорошо, когда удается быстро, иногда это не удается, конечно; во-вторых, этот случай придал нам сил выйти на рынок с собственными решениями - не надо бояться того, что на рынке есть сильные конкуренты. Был еще один момент поучительности. Когда я сам занимался отбором моделей для этой задачи, то сначала мы ввели целых тридцать разных моделей, и из них так адаптивно, как я рассказал, каждый день для каждого товара выбиралась оптимальная модель.

В принципе это чревато таким явлением, как переобучение, то есть мы могли хорошо, точно подогнаться под обучающие данные и плохо прогнозировать на новых тестовых данных. Я знал об этом явлении, что явление связано с тем, что модель может быть избыточно сложной, тогда и возникает эффект переобучения. Мне казалось, что выбор из тридцати моделей - это не настолько сложно, здесь не должно быть переобучения. Мое удивление было очень сильным, когда я провел эксперимент, сравнил обучение с контрольным и понял, что переобучение просто огромно и мы теряем десятки процентов точности на этом эффекте. Я только собирался еще и еще вводить новые модели, но этот эксперимент показал, что решение надо, наоборот, упрощать и тридцать моделей - это много. Следующим шоком для меня было, когда оказалось, что оптимальное число моделей - шесть, то есть нельзя было строить более сложное решение, чем из шести моделей.

Тогда чисто теоретически эта задача поставила меня в тупик, а решение удалось найти только тогда, когда я работал над докторской диссертацией и уже серьезно исследовал явление переобучения в рамках комбинаторной теории переобучения. Оказалось, что если вы выбираете из моделей и у вас есть одна модель хорошая, а все остальные - плохие, то вы эту хорошую модель, как правило, и будете выбирать. Вы не будете переобучаться, вы будете иметь это одно хорошее решение. Если у вас есть много моделей, но они похожи друг на друга, вы тоже не будете переобучаться, потому что эффективная сложность совокупности таких похожих друг на друга моделей невелика, переобучение тоже низкое. А если получится так, что ваши модели существенно различны и примерно все при этом одинаково плохие, то переобучение может быть очень велико, и эффект переобучения чудовищно растет по мере роста числа моделей. Это была ровно та ситуация, с которой мы столкнулись в этом тендере. А вот объяснить ее теоретически удалось лишь несколько лет спустя.

Была еще одна поучительная история. Тогда же, на этом тендере, презентуя свое решение организаторам конкурса, мы объяснили: «Мы считаем, что ваш функционал неправильно устроен, так делать нельзя. То, что прогнозируемая величина в знаменателе, - это, конечно, нехорошо. То, что ваш функционал выражает квадрат разности ошибок…» Что такое квадрат рублей, например? Это не имеет экономического смысла. Мы предложили оптимизировать функционалы, выражающие потери компании от неточности прогнозов, и показали, как такой функционал должен быть устроен, и показали, что мы готовы оптимизировать такие нестандартные функционалы, тем самым повышать прибыль компании - ровно то, что было нужно для бизнеса. Когда мы начали уже реально работать над проектом, то оказалось, что у компании те самые данные, которые нужны для построения такого функционала, очень грязные. Для части товаров такие данные вообще отсутствовали, для части товаров эти данные были неточны, потому что менеджеры до сих пор не были заинтересованы в том, чтобы такие данные проверялись, контролировались. Это же не бухгалтерия, это какая-то вспомогательная информация. Может быть, она кому-то когда-то понадобится, может быть, нет.

В результате оказалось, что данные грязные, и нужно было усовершенствовать бизнес-процессы и работать над улучшением качества данных. Это то, что бизнес не понимал в тот момент. Когда мы пришли со своим решением и осознали, что борьба за качество и чистоту данных - важная часть бизнеса, мы еще помогли нашим партнерам это осознать и кое-что улучшить внутри бизнес-процессов. Такая поучительная история о связи бизнеса и науки, о том, что наука может дать бизнесу нестандартные решения. Иногда это совсем несложно, но и, наоборот, в процессе поиска этих решений на основе реальных кейсов мы можем получить обратную связь для науки, мы можем столкнуться с какими-то неразрешенными теоретическими вопросами и двинуть теорию вперед.

доктор физико-математических наук, профессор факультета компьютерных наук НИУ ВШЭ

ВВЕДЕНИЕ

В переводе с греческого слово «прогноз» означает предвидение, предсказание о развитии чего-либо, основанное на определенных фактических данных. В общем виде под прогнозом следует понимать научно обоснованное суждение о возможных состояниях объекта в будущем, об альтернативных путях и сроках его осуществления.

Цель прогнозирования состоит в создании научных предпосылок, включающих научный анализ тенденций развития экономики; вариантное предвидение предстоящего развития общественного воспроизводства, учитывающее как сложившиеся тенденции, так и намеченные цели; оценку возможных последствий принимаемых решений; обоснование направлений социально-экономического и научно-технического развития для принятия управляющих решений.

Прогнозы природных ресурсов характеризуют вовлечение последних в хозяйственный оборот и охватывают все виды общественного воспроизводства и природную среду: топливо и минеральные ресурсы, ресурсы Мирового океана, некоторые виды энергии, растительный и животный мир, а также охрану окружающей среды.

МАТЕМАТИЧЕСКИЕ МЕТОДЫ ПРОГНОЗИРОВАНИЯ

Математические методы прогнозирования имеют высокую достоверность получаемой информации. При прогнозировании наибольшее распространение получили методы математической экстраполяции, экономико-статистического и экономико-математического моделирования.

Методы математической экстраполяции позволяют количественно охарактеризовать прогнозируемые процессы. Он основан на изучении сложившихся в прошлом закономерностей развития изучаемого явления и распространения их на будущее. Метод исходит из того, что в экономической жизни действует принцип инерции, т.е. наблюдаемые закономерности достаточно устойчивы в течение некоторого периода времени.

Экстраполяция в прогнозировании осуществляется с помощью выравнивания статистических рядов вне их связи с другими рядами экономической динамики, влияние которых учитывается в усредненном виде лишь на основе опыта прошлого.

Предпосылка о сохранении неизменности условий предшествующего периода при экстраполяции ограничивает возможности применения этого метода сравнительно непродолжительными периодами, в течение которых не происходит существенных качественных изменений. Наиболее достоверны результаты прогнозирования при соотношении продолжительности предшествующего периода (ретроспекции) и периода упреждения (проспекции).

Для применения данного метода необходимо иметь продолжительный ряд показателей за прошедшей период. Данная информация изучается и обрабатывается. Фактический временной ряд выравнивается путем графоаналитического или статистического подбора аппроксимирующей функции. Далее разрабатывают гипотезы изменения объекта в прогнозный период (период упреждения) и формализуют их в виде количественных показателей (тенденций). При этом значения показателей можно прогнозировать не только на конец прогнозного срока, но и на промежуточных этапах.

Методы и приемы математической статистики, теории вероятности дают возможность использовать широкий круг функций для прогнозирования необходимого показателя во времени.

Данные методы имеют недостатки, так как не может быть дан достоверный прогноз на длительный срок, если имеются скачкообразные изменения данных; нет возможности определить качественные характеристики прогнозируемых объектов.

Методы математической экстраполяции применяются при прогнозировании отводов земель для несельскохозяйственных нужд, установления урожайности сельскохозяйственных культур и т.д.

Наиболее часто применяются при прогнозировании экономико-статистические модели. На основе их рассчитывают урожайность сельскохозяйственных культур, продуктивность животных, выход продукции с сельскохозяйственных земель, прогнозные нормативы (облесенность территории, сельскохозяйственная освоенность земель и др.). Данный метод позволяет научно обосновать показатели и нормативы, используемые при планировании.

Экономико-статистической моделью называют функцию, связывающую результативный и факторные показатели, выраженную в аналитическом, графическом, табличном или ином виде, построенную на основе массовых данных и обладающую статистической достоверностью. Такие функции называют производственными, так как они описывают зависимость результатов производства от имеющихся факторов.

Процесс разработки экономико-статистической модели (моделирование) состоит из следующих стадий:

  • 1. Экономический анализ производства. Определение зависимой переменной (результативный показатель) и выявление факторов, влияющих на неё (факторный показатель).
  • 2. Сбор статистических данных и их обработка.
  • 3. Установление математической формы связи (вид уравнения) между результативными и факториальными показателями.
  • 4. Определение числовых параметров экономико-статистической модели.
  • 5. Оценка степени соответствия экономико-статистической модели изучаемому процессу.
  • 6. Экономическая интерпретация модели.

Экономический анализ производства заключается в определении цели, задачи и выборе результативного показателя, который отражает эффективность прогнозного решения. При анализе интенсивности использования земель в сельскохозяйственных организациях в качестве результативного показателя могут быть использованы стоимость валовой продукции в расчёте на 100 га сельхозземель (пахотных земель), урожайность культур, продуктивность земель и др.

В качестве факторных показателей используют балл плодородия почв, сельскохозяйственную освоенность и распаханность, энерговооруженность, трудообеспеченность и т. д.

При выборе независимых факторов руководствуются определенными правилами:

  • 1. Точность производственных функций выше при большем числе эмпирических данных (при крупных выборках).
  • 2. Факторы-аргументы должны оказывать наиболее существенное влияние на изучаемый процесс, количественно измеряться и представляться лишь одним признаком.
  • 3. Количество отобранных факторов не должно быть большим, так как это усложняет модель и повышает трудоёмкость её использования.
  • 4. Включаемые в модель факторы не должны находиться между собой в состоянии функциональной связи (автокорреляция), так как они характеризуют одну и ту же сторону изучаемого явления и дублируют друг друга. При использовании их в экономико-статистической модели изучаемые зависимости и результаты расчётов могут быть искажены.

Сбор статистических данных и их обработку производят после определения зависимой переменной (результативного показателя) и факторов-аргументов. При сборе информации используют экспериментальный и статистический методы. Первый предполагает изучение данных, получаемых в результате проведения опытов, условия которых можно контролировать. Но в землеустройстве процесс экспериментирования затруднён, а при решении отдельных вопросов вообще невозможен.

Второй метод основан на использовании статистических данных (сплошных или выборочных). Например, если при анализе размеров землепользования используются данные по всем сельскохозяйственным предприятиям области, то статистическая информация является сплошной, а изучаемая совокупность - генеральной.

Однако размер генеральных совокупностей бывает слишком большим - несколько сотен единиц и более. Поэтому для сокращения расчётов и экономии времени число наблюдений сокращают, получая выборочные данные (формируя выборочную совокупность) различными методами, позволяющими сохранить достоверность вычислений и распространить результаты исследований на генеральную совокупность.

Во всех случаях выборка должна быть однородной; исключать аномальные объекты и данные (сильно отличающиеся от всех остальных); включать только факторы, которые измеряются однозначно некоторым числом или системой чисел.

Определение математической формы связи переменных производят, логически анализируя процесс. Анализ позволяет установить вид уравнения (линейное, нелинейное), форму связи (парная или множественная) и т. д.

Определение параметров модели включает расчёт числовых характеристик математической зависимости (уравнения). Например, если для установления зависимости урожайности сельскохозяйственных культур (у) от балла плодородия ночв (х) выбрана линейная зависимость вида, то данная стадия моделирования заключается в получении численных значений коэффициентов и.

Для определения параметров уравнения могут применяться различные методы, но практика показывает, что самые точные результаты даёт метод наименьших квадратов. Оценка степени соответствия экономико-статистической модели изучаемому процессу осуществляется с использованием специальных коэффициентов (корреляции, детерминации, существенности и др.). Данные коэффициенты показывают соответствие математического выражения изучаемому процессу, можно ли использовать полученную модель для проведения последующих расчётов и принятия землеустроительных решений, насколько точно определяется результативный показатель и с какой вероятностью можно доверять ему.

Экономическое применение модель находит при научном обосновании нормативов, экономическом обосновании показателей в прогнозных разработках. математический экстраполяция сельскохозяйственный

Наиболее распространённым видом экономическо-статистических моделей являются производственные функции.

Производственная функция - это математически выраженная зависимость результатов производства от производственных факторов.

С помощью производственных функций при прогнозировании анализируют состояние и использование земель; подготавливают исходную информацию для экономико-математических задач по оптимизации различных решений; устанавливают уровень результативного признака на перспективу при планировании и прогнозировании использования земель в схемах и проектах землеустройства; определяют экономические оптимумы, коэффициенты эластичности, эффективности и взаимозаменяемости факторов. Для выражения зависимостей при прогнозировании наиболее часто употребляется линейная зависимость, поскольку она проста в применении. Реже применяются степенные, гиперболические, полиномиальные и другие.

Экономико-математическое моделирование предполагает создание модели, которая изучает экономический объект и представляет его описание с помощью знаков и символов (математических уравнений и неравенств, матриц, формул и др.).

Решение любой экономико-математической задачи при планировании и прогнозировании в землеустройстве связано с большим количеством информации. Для моделирования необходимо получить исходную информацию, ее обработать, проанализировать и оценить. Собранная информация должна быть полной, достоверной, своевременной, оперативной, представляться в удобной форме для дальнейшего использования. При этом затраты на сбор, обработку, передачу, хранение информации. При планировании и прогнозировании в землеустройстве используют следующие виды и источники информации: геоинформационные данные, статистические и отчетные данные по объекту планирования, плановая информация, нормативная информация.

Основой экономико-математической модели является матрица - специальная таблица, содержащая смысловые или кодовые обозначения функции цели; переменных и ограничений; их числовое выражение в виде коэффициентов или ограничений;

Целевая функция это аналитическая форма выражения критерия оптимальности. При моделировании в зависимости от уровня объекта (процесса) выделяют глобальный, отраслевой, локальный и частные критерии оптимальности;

Размер матрицы определяется перечнем переменных величин. В качестве переменных величин используют площади земель; показатели производственной деятельности сельскохозяйственной отрасли (по растениеводству, животноводству в целом; по сельскохозяйственным культурам; по видам скота).

Нахождение при прогнозировании оптимальных решений зависит от правильного определения состава ограничений. Ограничения формулируют в виде системы неравенств и уравнений, выражающей возможности производства и баланс ресурсов.

Ограничения могут быть основными, которые накладываются на все или большинство переменных (площади земель, рабочих участков, дозы внесения удобрений и т. д.), дополнительными - накладываются на отдельные переменные или небольшие группы (объёмы производства отдельных видов продукции, потребление некоторыми группами животных некоторых видов кормов и т. д.) и вспомогательными (не имеют самостоятельного экономического значения, используются для правильной формулировки экономических требований и математической записи).

Используют различные виды экономико-математических моделей: корреляционные модели и производственные функции, балансовые модели, модели оптимизации. При разработке схемы землеустройства административного района решаются следующие основные экономико-математические задачи: распределение земель административного района по категориям; оптимизация мероприятий по освоению и интенсификации использования земель; оптимизация размещения, специализации и уровня концентрации сельскохозяйственного производства в административном районе; установление оптимальных размеров сельскохозяйственных организаций; перераспределения земель между сельскохозяйственными организациями и др. Данные задачи часто состоят из блоков, каждый из которых имеет свой критерий оптимальности.

Например: в основу модели по оптимизации размещения, специализации и уровня концентрации сельскохозяйственного производства в административном районе положены две модели: по определению оптимального сочетания отраслей сельскохозяйственного производства и по установлению оптимального размера землепользований сельскохозяйственных организаций.

Данная задача состоит из блоков, в качестве которых выступают сельскохозяйственные организации.

В качестве переменных используют неизвестные: посевные площади сельскохозяйственных культур; виды и подвиды земель; трансформируемые земли; виды внутрихозяйственных ресурсов и другие переменные, которые учитывают особенности района.

Выделяют следующие группы ограничений:

  • 1. Условия использование земель (по площадям, по качественным условиям) и возможность их трансформации.
  • 2. Соотношение площадей земель.
  • 3. Агробиологические и зоотехнические условия ведения сельскохозяйственного производства.
  • 4. Ограничения по производству и использованию кормов.
  • 5. Рекомендуемый размер землепользований сельскохозяйственных организаций в зависимости от специализации.
  • 6. Ресурсные ограничения (по объему продаж продукции, по затратам труда, по денежным затратам на тех. средства, мин. удобрения, семена и др.).
  • 7. Ограничения, учитывающие особенности расселения, а также использование трудовых и механизированных ресурсов.
  • 8. Общерайонные условия и пропорции (баланс распределения материально-технических фондов по району, численность занятых в сельском хозяйстве и всего населения по району и др.).

В качестве критерия оптимальности при решении данной задачи используют, как правило, минимум приведенных затрат на фиксированный объем производства продукции.

В результате решения задачи устанавливают: состав и соотношение земель по отдельным землепользованиям и в целом по району; площади земель, подлежащие улучшению, освоению и трансформации; посевные площади сельскохозяйственных культур; структуру стада животных, производства и потребления кормов; межхозяйственное и внутрихозяйственное размещение отраслей в районе; специализацию и объем производства продукции в сельскохозяйственных организаций и их объединениях; балансы средств в целом по району и в разрезе сельхозорганизаций; распределение единовременных средств между сельхозорганизациями.

1

В статье на конкретных примерах рассмотрены различные математические методы прогнозирования во времени, среди которых простая экстраполяция, методы, основанные на темпах роста, математическое моделирование. Показано, что выбор метода зависит от базы прогноза – информации за предыдущий временной период.

прогнозирование

биостатистика

1. Афанасьев В.Н., Юзбашев М.М. Анализ временных рядов и прогнозирование: Учебник. – М.: Финансы и статистика, 2001. – 228 с.

2. Петри А., Сэбин К. Наглядная статистика в медицине. – М.: ГЭОТАР-МЕД, 2003. – 144 с.

3. Садовникова Н.А., Шмойлова Р.А. Анализ временных рядов и прогнозирование: Учебное пособие. – М.: Изд. центр ЕАОИ, 2001. – 67 с.

Обычно под прогнозированием понимается процесс предсказания будущего основанное на некоторых данных из прошлого, т.е. изучается развитие интересующего явления во времени. Тогда прогнозируемая величина рассматривается как функция времени y=f(t) . Однако в медицине рассматриваются и другие виды прогноза : прогнозируется диагноз, диагностическая ценность нового теста, изменение одного фактора под действием другого и т.д.

Целью статьи было представить различные методы прогнозирования и подходы к их правильному использованию в медицине.

Материалы и методы исследования

В статье рассмотрены следующие методы прогнозирования: методы простой экстраполяции, метод скользящих средних, метод экспоненциального сглаживания, метод среднего абсолютного прироста, метод среднего темпа роста, методы прогнозирования на основе математических моделей.

Результаты исследования и их обсуждение

Как уже было отмечено, прогноз осуществляется на основании некоторой информации из прошлого (базы прогноза). Прежде чем подобрать метод прогнозирования полезно хотя бы качественно оценить динамику изучаемой величины в предыдущие моменты времени. На представленных графиках (рис. 1) видно, что она может быть различной.

Рис. 1. Примеры динамики изучаемой величины

В первом случае (график А) наблюдается относительная стабильность с небольшими колебаниями вокруг среднего значения. Во втором случае (график Б) динамика носит линейно возрастающий характер, в третьем (график В) - зависимость от времени нелинейная, экспоненциальная. Четвертый случай (график Г)- пример сложных колебаний, имеющих несколько составляющих.

Наиболее распространенным методом краткосрочного прогнозирования (1-3 временных периода), является экстраполяция, которая заключается в продлении предыдущих закономерностей на будущее. Применение экстраполяции в прогнозировании базируется на следующих предпосылках:

Развитие исследуемого явления в целом описывается плавной кривой;

Общая тенденция развития явления в прошлом и настоящем не претерпит серьезных изменений в будущем.

Первый метод из методов простой экстраполяции - это метод среднего уровня ряда. В этом методе прогнозируемый уровень изучаемой величины принимается равным среднему значению уровней ряда этой величины в прошлом. Этот метод используется, если средний уровень не имеет тенденции к изменению, или это изменение незначительно (нет явно выраженного тренда, рис. 1, график А)

где yпрог - прогнозируемый уровень изучаемой величины; yi - значение i-го уровня; n - база прогноза.

В некотором смысле отрезок динамического ряда, охваченный наблюдением, можно уподобить выборке, а значит, полученный прогноз будет выборочным, для которого можно указать доверительный интервал

где - среднеквадратичное отклонение временного ряда; tα -критерий Стъюдента для заданного уровня значимости и числа степеней свободы (n-1).

Пример. В табл. 1 приведены данные временного ряда y(t). Рассчитать прогнозное значение y на момент времени t =13 методом среднего уровня ряда.

Таблица 1

Данные временного ряда y(t)

(80+98+94+103)/4

(80+98+94+103+84)/5

(80+98+94+103+84+115)/6

(80+98+94+103+84+115+98)/7

(80+98+94+103+84+115+98+113)/8

(80+98+94+103+84+115+98+113+114)/9

(80+98+94+103+84+115+98+113+114+87)/10

(80+98+94+103+84+115+98+113+114+87+107)/11

(80+98+94+103+84+115+98+113+114+87+107+85)/12

Исходный и сглаженный ряд представлены на рис. 2, расчет y - в табл. 2.

Рис. 2. Исходный и сглаженный ряд

Таблица 2

Доверительный интервал для прогноза в момент t =13

Метод скользящих средних - это метод прогнозирования на краткосрочный период, основан на процедуре сглаживания уровней изучаемой величины (фильтрации). Преимущественно используются линейные фильтры сглаживания с интервалом m, т.е.

.

Доверительный интервал

где - среднеквадратичное отклонение временного ряда; tα - критерий Стъюдента для заданного уровня значимости и числа степеней свободы (n-1).

Пример. В табл. 3 приведены данные временного ряда y(t). Рассчитать прогнозное значение y на момент времени t =13 методом скользящих средних с интервалом сглаживания m=3.

Исходный и сглаженный ряд представлены на рис. 3, расчет y - в табл. 4.

Таблица 3

Данные временного ряда y(t)

Рис. 3. Исходный и сглаженный ряд

Таблица 4

Прогнозное значение y

Метод экспоненциального сглаживания - это метод, при котором в процессе выравнивания каждого уровня используются значения предыдущих уровней, взятых с определенным весом. По мере удаления от какого-то уровня вес этого наблюдения уменьшается. Сглаженное значение уровня на момент времени t определяется по формуле

где St - текущее сглаженное значение; yt - текущее значение исходного ряда; St - 1 - предыдущее сглаженное значение; α - сглаживающая параметр.

S0 берется равным среднему арифметическому нескольких первых значений ряда.

Для расчета α предложена следующая формула

По поводу выбора α нет единого мнения, эта задача оптимизации модели пока еще не решена. В некоторых литературных источниках рекомендуется выбирать 0,1 ≤ α ≤ 0,3.

Прогноз рассчитывается следующим образом

.

Доверительный интервал

Таблица 5

Данные временного ряда y(t)

0,3×80+(1-0,3)×90,7

0,3×98+(1-0,3) ×87,5

0,3×94+(1-0,3) ×90,6

0,3⋅103+(1-0,3) ×91,6

0,3×84+(1-0,3) ×95

0,3⋅115+(1-0,3) ×91,7

0,3×98+(1-0,3) ×98,7

0,3⋅113+(1-0,3) ×98,5

0,3⋅114+(1-0,3) ⋅102,8

0,3×87+(1-0,3) ⋅106,2

0,3⋅107+(1-0,3) ⋅100,4

0,3×85+(1-0,3) ⋅102,4

97,2+0,3× (85-97,2)

Исходный и сглаженный ряд представлены на рис. 4, расчет y - в табл. 6.

Рис. 4. Исходный и сглаженный ряд

Таблица 6

Прогнозное значение y на момент времени t =11

Следующий метод прогноза - это метод среднего абсолютного прироста Прогнозируемый уровень изучаемой величины изменяется в соответствии со средним абсолютным приростом этой величины в прошлом. Данный метод применяется, если общая тенденция в динамике линейна (для случая, приведенного на рис. 1, график Б)

где ; y0 - базовый уровень экстраполяции выбирается как среднее значение нескольких последних значений исходного ряда; - средний абсолютный прирост уровней ряда; l - число интервалов прогнози рования.

В качестве базового уровня принято усредненное значение последних значений ряда, максимально трех.

Таблица 7

Данные временного ряда y(t)

Прогноз = y0+Δl

(60+75+70)/3=68,3

(75+70+103)/3=82,7

(70+103+100)/3=91

(103+100+115)/3=106

(100+115+125)/3=113,3

(115+125+113)/3=117,7

(125+113+138)/3=125,3

(113+138+136)/3=129

(138+136+145)/3=139,7

(136+145+150)/3=143,7

143,7+8,2⋅1=151,9

143,7+8,2⋅2=160,1

143,7+8,2⋅3=168,3

Исходный и сглаженный ряд представлены на рис. 5.

Рис. 5. Исходный и сглаженный ряд

Метод среднего темпа роста

Прогнозируемый уровень изучаемой величины изменяется в соответствии со средним темпом роста данной величины в прошлом. Данный метод применяется, если общая тенденция в динамике характеризуется показательной или экспоненциальной кривой (рис. 1В)

где - средний темп роста в прошлом; l - число интервалов прогнозирования.

Прогнозная оценка будет зависеть от того, в какую сторону от основной тенденции (тренда) отклоняется базовый уровень y0, поэтому рекомендуется рассчитывать y0 как усредненное значение нескольких последних значений ряда.

Таблица 8

Данные временного ряда y(t)

62,5⋅1,081 = 67,7

(70/60)1/2 =1,08

65⋅1,081 = 70,2

(65+70+68)/3=67,7

(68/60)1/3 =1,04

67,7⋅1,041 =70,5

(70+68+82)/3=73,3

(82/60)1/4 =1,08

73,3⋅1,081 =79,3

(68+82+80)/3=76,7

(80/60)1/5 =1,06

76,7⋅1,061 =81,2

(82+80+95)/3=85,7

(95/60)1/6 =1,08

85,7⋅1,081 =92,5

(80+95+113)/3=96

(113/60)1/7 =1,09

96⋅1,091 =105,1

(95+113+135)/3=114,3

(135/60)1/8 =1,11

114,3⋅1,111 =126,5

(113+135+140)/3=129,3

(140/60)1/9 =1,10

129,3⋅1,11 =142,1

(135+140+168)/3=147,7

(168/60)1/10 =1,11

147,7⋅1,111 =163,7

(140+168205)/3=171

(205/60)1/11 =1,12

171⋅1,121 =191,2

171⋅1,122 =213,8

171⋅1,123 =239,1

Исходный и сглаженный ряд представлены на рис. 6.

Рис. 6. Исходный и сглаженный ряд

На сегодняшний день наиболее распространенным методом прогнозирования является нахождение аналитического выражения (уравнения) тренда . Тренд экстраполируемого явления - это основная тенденция временного ряда, в некоторой мере свободная от случайных воздействий.

Разработка прогноза заключается в определении вида экстраполирующей функции y=f(t), которая выражает зависимость изучаемой величины от времени на основе исходных наблюдаемых данных. Первым этапом является выбор оптимального вида функции, дающей наилучшее описание тренда. Наиболее часто используются следующие зависимости:

Линейная ;

Параболическая ;

Показательная функция ;

Проблемы нахождения коэффициентов линейной функции и прогноз на ее основе рассматриваются в разделе статистики «регрессионный анализ». Если форма кривой, описывающей тренд, имеет нелинейный характер, то задача оценки функции y=f(t) усложняется, и в этом случае необходимо привлечь к анализу специалистов по биостатистике и воспользоваться компьютерными программами по статистической обработке данных.

В большинстве реальных случаев временной ряд представляет собой сложную кривую, которую можно представить как сумму или произведение трендовой, сезонной, циклической и случайной компонент.

Тренд представляет собой плавное изменение процесса во времени и обусловлен действием долговременных факторов. Сезонный эффект связан с наличием факторов, действующих с заранее известной периодичностью (например, времена года, лунные циклы). Циклическая компонента описывает длительные периоды относительного подъема и спада, состоит из циклов переменной длительности и амплитуды (например, некоторые эпидемии имеют длительный циклический характер). Случайная составляющая ряда отражает воздействие многочисленных факторов случайного характера и может иметь разнообразную структуру.

Заключение

Методы простой экстраполяции, метод скользящих средних, метод экспоненциального сглаживания являются простейшими, и в тоже время самыми приближенными - это видно из широких доверительных интервалов в приведенных примерах. Большая погрешность прогноза наблюдается в случае сильных колебаний уровней. Следует обратить внимание на то, что неправомерно использовать эти методы при наличии явной тенденции к росту (или падению) исходного временного ряда. Тем не менее, для краткосрочных прогнозов их применение бывает оправданным.

Анализ всех компонентов временного ряда и прогнозирование на их основе задача нетривиальная, рассматривается в разделе статистики «анализ временных рядов» и требует специальной подготовки.

Библиографическая ссылка

Койчубеков Б.К., Сорокина М.А., Мхитарян К.Э. МАТЕМАТИЧЕСКИЕ МЕТОДЫ ПРОГНОЗИРОВАНИЯ В МЕДИЦИНЕ // Успехи современного естествознания. – 2014. – № 4. – С. 29-36;
URL: http://natural-sciences.ru/ru/article/view?id=33316 (дата обращения: 30.03.2019). Предлагаем вашему вниманию журналы, издающиеся в издательстве «Академия Естествознания»

Статистические наблюдения в социально-экономических исследованиях обычно проводятся регулярно через равные отрезки времени и представляются в виде временных рядов x t , где t = 1, 2, ..., п. В качестве инструмента статистического прогнозирования временных рядов служат трендовые регрессионные модели, параметры которых оцениваются по имеющейся статистической базе, а затем основные тенденции (тренды) экстраполируются на заданный интервал времени.

Методология статистического прогнозирования предполагает построение и испытание многих моделей для каждого временного ряда,ихсравнение на основе статистических критериев и отбор наилучшихизних для прогнозирования.

При моделировании сезонных явлений в статистических исследованиях различают два типа колебаний: мультипликативные и аддитивные. В мультипликативном случае размах сезонных колебаний изменяется во времени пропорционально уровню тренда и отражается в статистической модели множителем. При аддитивной сезонности предполагается, что амплитуда сезонных отклонений постоянна и не зависит от уровня тренда, а сами колебания представлены в модели слагаемым.

Основой большинства методов прогнозирования является экстраполяция, связанная с распространением закономерностей, связей и соотношений, действующих в изучаемом периоде, за его пределы, или - в более широком смысле слова - это получение представлений о будущем на основе информации, относящейся к прошлому и настоящему.

Наиболее известны и широко применяются трендовые и адаптивные методы прогнозирования. Среди последних можно выделить такие, как методы авторегрессии, скользящего среднего (Бокса - Дженкинса и адаптивной фильтрации), методы экспоненциального сглаживания (Хольта, Брауна и экспоненциальной средней) и др.

Для оценки качества исследуемой модели прогноза используют несколько статистических критериев.

Наиболее распространенными критериями являются следующие.

Относительная ошибка аппроксимации:

где e t = х t - - ошибка прогноза;

х t - фактическое значение показателя;

- прогнозируемое значение.

Данный показатель используется в случае сравнения точности прогнозов по нескольким моделям. При этом считают, что точность модели является высокой, когда < 10%, хорошей - при = 10-20% и удовлетворительной - при = 20-50%.

Средняя квадратическая ошибка:

(54.2)

где k - число оцениваемых коэффициентов уравнения.

Наряду с точечным в практике прогнозирования широко используют интервальный прогноз. При этом доверительный интервал чаще всего задается неравенствами

(54.3)

где t α - табличное значение, определяемое по t -распределению Стьюдента при уровне значимости α и числе степеней свободы п - k.

В литературе представлено большое число математико-статистических моделей для адекватного описания разнообразных тенденций временных рядов.

Наиболее распространенными видами трендовых моделей, характеризующих монотонное возрастание или убывание исследуемого явления, являются:

(54.4)

Правильно выбранная модель должна соответствовать характеру изменений тенденции исследуемого явления; При этом величина е t должна носить случайный характер с нулевой средней.

Кроме того, ошибки аппроксимации e t должны быть независимыми между собой и подчиняться нормальному закону распределения e t Î N (0, σ ). Независимость ошибок e t , т.е. отсутствие автокорреляции остатков, обычно проверяется по критерию Дарбина-Уотсона, основанного на статистике:

(54.5)

где e t = x t - .

Если отклонения не коррелированы, то величина DW приблизительно равна двум. При наличии положительной автокорреляции 0 ≤ DW 2, а отрицательной - 2 ≤ D W ≤ 4.

О коррелированности остатков можно также судить по коррелограмме для отклонений от тренда, которая представляет собой график функции относительно τ коэффициента автокорреляции, который вычисляется по формуле

(54.6)

где τ = 0, 1, 2 ... .

После выбора наиболее подходящей аналитической функции для тренда его используют для прогнозирования на основе экстраполяции на заданное число временных интервалов.

Рассмотрим задачу сглаживания сезонных колебаний, исходя из ряда V t = х t - , где x t - значение исходного временного ряда в момент t, а - оценка соответствующего значения тренда (t = 1, 2, ..., п ).

Так как сезонные колебания представляют собой циклический, повторяющийся во времени процесс, то в качестве сглаживающих функций используется гармонический ряд (ряд Фурье) следующего вида:

Оценки параметров α i и β i модели определяют из выражений

(54.7)

где k = п / 2 - максимально допустимое число гармоник;

ω i = 2πi / п - угловая частота i -й гармоники (i = 1, 2, ..., т).

Пусть т - число гармоник, используемых для сглаживания сезонных колебаний (т < k). Тогда оценка гармонического ряда имеетвид

(54.8)

а расчетные значения временного ряда исходного показателя определяются по формуле

54.2. Адаптивные методы прогнозирования

При использовании трендовых моделей в прогнозировании обычно предполагается, что основные факторы и тенденции прошлого периода сохранятся на период прогноза или что можно обосновать и учесть направление их изменений в перспективе. Однако в настоящее время, когда происходит структурная перестройка экономики, социально-экономические процессы даже на макроуровне становятся очень динамичными. В этой связи исследователь часто имеет дело с новыми явлениями и с короткими временными рядами. При этом устаревшие данные при моделировании часто оказываются бесполезными и даже вредными. Таким образом, возникает необходимость строить модели, опираясь в основном на малое количество самых свежих данных, наделяя модели адаптивными свойствами.

Важную роль в деле совершенствования прогнозирования должны сыграть адаптивные методы, цель которых заключается в построении самонастраивающихся моделей, которые способны учитывать информационную ценность различных членов временного ряда и давать достаточно точные оценки будущих членов данного ряда. Адаптивные модели достаточно гибки, однако на их универсальность, пригодность для любого временного ряда рассчитывать не приходится.

При построении конкретных моделей необходимо учитывать наиболее вероятные закономерности развития реального процесса. Исследователь должен закладывать в модель те адаптивные свойства, которых достаточно для слежения за реальным процессом с заданной точностью.

У истоков адаптивного направления лежит простейшая модель экспоненциального сглаживания, обобщение которой привело в появлению целого семейства адаптивных моделей. Простейшая адаптивная модель основывается на вычислении экспоненциально взвешенной скользящей средней.

Экспоненциальное сглаживание исходного временного ряда x t осуществляется по рекуррентной формуле

(54.9)

где S t - значение экспоненциальной средней в момент t, a. S t-1 - в момент t -1;

α - параметр сглаживания, адаптации, α = const, 0 < α < 1;

Выражение (54.9) можно представить в виде

В (54.10) экспоненциальная средняя в момент t выражена как экспоненциальная средняя предшествующего момента S t-1 плюс доля α отклонения текущего наблюдения х t от экспоненциальной средней S t-1 момента t - 1.

Последовательно используя рекуррентное соотношение (54.9), можно выразить экспоненциальную среднюю S t через значения временного ряда:

где S 0 - величина, характеризующая начальные условия для первого применения формулы (54.9), при t = 1.

Так как β = (1 - α) < 1, то при t 0 β t 0, и, согласно (54.11),

(54.12)

т.е. величина S t оказывается взвешенной суммой всех членов ряда. При этом веса падают экспоненциально в зависимости от давности наблюдения, откуда и название S t - экспоненциальная средняя.

Из (54.12) следует, что увеличение веса более свежих наблюдений может быть достигнуто повышением α. В то же время для сглаживания случайных колебаний временного ряда x t величину α нужно уменьшить. Два названных требования находятся в противоречии, и на практике при выборе α исходят из компромиссного решения.

Экспоненциальное сглаживание является простейшим видом самообучающейся модели с параметром адаптации α. Разработано несколько вариантов адаптивных моделей, которые используют процедуру экспоненциального сглаживания и позволяют учесть наличие у временного ряда x t тенденции и сезонных колебаний. Рассмотрим некоторыеизтаких моделей.

Адаптивная полиномиальная модель первого порядка

Рассмотрим алгоритм экспоненциального сглаживания, предполагающий наличие у временного ряда x t линейного тренда. В основе модели лежит гипотеза о том, что прогноз может быть получен по уравнению

где - прогнозируемое значение временного ряда на момент (t + τ);

, - оценки адаптивных коэффициентов полинома первого порядка в момент t;

τ - величина упреждения.

Экспоненциальные средние 1-го и 2-го порядков для модели имеют вид

(54.13)

где β = 1 - α, а оценка модельного значения ряда с периодом упреждения τ равна

(54.14)

Для определения начальных условий первоначально по данным временного ряда x t находим методом наименьших квадратов оценки линейного тренда:

и принимаем и . Тогда начальные условия определяются как:

(54.15)

Контрольные вопросы

1. Какие модели прогнозирования вы знаете и каковы их особенности?

2. В чем состоит статистический подход к прогнозированию, моделированию тенденций и сезонных явлений в стратегических исследованиях?

3. Какие трендовые модели вам известны и как оценивается их качество?

4. В чем особенность адаптивных методов прогнозирования?

5. Какимобразом осуществляется экспоненциальное сглаживание временного ряда?

Спецкурсы и спецсеминары в весеннем семестре 2018/2019 уч.г.

25.03.2019 г. :14:35 – 16:10 с/к магистры «Анализ графов, сетей, функций сходства», Майсуразе А.И., 507 занятие не состоится 25 марта (понедельник), лектор болен ;
16:20 – 17:55 с/к бакалавры «Аналитический SQL», Майсурадзе А.И., 582 занятие не состоится 25 марта (понедельник), лектор болен.
27.02.2019 г. : Учебно-исследовательский семинар «Интеллектуальный анализ данных: новые задачи и методы» , руководители С.И.Гуров , А.И.Майсурадзе Спецсеминар проходит по средам в ауд. 704, начало в 18-05 . 04 марта (понедельник) на спецсеминаре состоится доклад И. С. Балашова (ВВО, 3 курс) "Исследование микробиома во время беременности методами теории графов" . Известно, что микроорганизмы, обитающие в различных локусах организма, взаимодействуют друг с другом и образуют сообщества, называемые микробиомом, а совокупность этих микроорганизмов называется микробиотой. Для ряда заболеваний показано, что микробиота является фактором риска развития определенных заболеваний. Данные о составе микробиоты можно представить в виде графа, а затем исследовать особенности этого графа в норме и при патологии. В работе будут представлены особенности предметной области и их влияние на выбор методов описания и анализа данных, представлены базовые модели, описывающие микробиом.

  • 27.02.2019 г. : Логический анализ данных в распознавании , (Logical data analysis in recognition) лектор Е.В. Дюкова , проходит по понедельникам в ауд. 645, начало в 16-20. Первое занятие 25 февраля. В спецкурсе будут изложены общие принципы, лежащие в основе дискретных методов анализа информации в задачах распознавания, классификации и прогнозирования. Будут рассмотрены подходы к конструированию процедур распознавания на основе использования аппарата логических функций и методов построения покрытий булевых и целочисленных матриц. Будут изучены основные модели и рассмотрены вопросы, связанные с исследованием сложности их реализации и качества решения прикладных задач. Спецкурс для бакалавров 2-4 курсов. По спецкурсу издано учебное пособие.
  • 27.02.2019 г. : Вероятностное тематическое моделирование (Probabilistic topic modelling), лектор профессор РАН, д.ф.-м.н. К.В. Воронцов , проходит по четвергам в ауд. 510, начало в 18-05. Первое занятие 14 февраля. Тематическое моделирование – это современная область исследований на стыке машинного обучения и компьютерной лингвистики. Тематическая модель определяет, какие темы содержатся в большой текстовой коллекции, и к каким темам относится каждый документ. Тематические модели позволяют искать тексты по смыслу, а не по ключевым словам, и создавать информационно-поисковые сервисы нового типа для систематизации знаний. В спецкурсе рассматриваются тематические модели для классификации, категоризации, сегментации, суммаризации текстов естественного языка, а также для рекомендательных систем, анализа банковских транзакционных данных и биомедицинских сигналов. Из математики нам понадобится теория вероятностей, методы оптимизации, матричные разложения. Для любителей программирования имеется возможность поучаствовать в проекте с открытым кодом BigARTM.org. Для особо увлечённых – дополнительные семинары по вечерам в офисе Яндекса. Заданиями по курсу будет решение задач из реальной жизни, у которых нет правильного ответа в конце учебника. Спецкурс для магистрантов, но студентам второго курса тоже всё будет понятно:) 18+ (для студентов, познавших теорвер).
  • 27.02.2019 г. : Задачи и алгоритмы вычислительной геометрии (Computational Geometry: Problems and Algorithms), Л.М. Местецкий , проходит по пятницам в ауд. 607, начало в 18-05. Первое занятие 15 февраля. Эффективные алгоритмы работы с геометрической информацией являются непременным атрибутом всех современных систем машинного зрения, анализа и распознавания изображений, компьютерной графики и геоинформатики. Геометрические алгоритмы предоставляют хорошее поле для развития алгоритмического мышления, необходимого в прикладной математике. В первой части спецкурса будут рассмотрены классические темы вычислительной геометрии: геометрический поиск, выпуклые оболочки, пересечение и близость объектов, диаграммы Вороного, триангуляции Делоне. Вторая часть курса посвящена скелетам, обобщениям диаграмм Вороного для многоугольников и задачам медиального анализа формы изображений. Приглашаются бакалавры.
  • 27.02.2019 г. : Методы машинного обучения и поиск закономерностей в данных (Machine learning and search of regularities in data) , лектор О.В. Сенько , проходит по четвергам в ауд. 507, начало в 18-05. Первое занятие 14 февраля. В курсе обсуждаются основные проблемы, возникающие при использовании методов обучения по прецедентам (машинного обучения). Даётся краткий обзор существующих методов распознавания и регрессионного анализа. Рассказывается о способах оценки точности на генеральной совокупности (обобщающей способности). Обсуждаются различные способы повышения обобщающей способности методов машинного обучения. Приглашаются бакалавры.
  • 27.02.2019 г. : Анализ графов, сетей, функций сходства (Graphs, Network, Distance Function Analysis), А.И. Майсурадзе, проходит по понедельникам в ауд. 582, начало в 16-20. Первое занятие 18 февраля. Рассматриваются задачи и методы анализа систем, описание которых базируется на попарном или множественном взаимодействии объектов. Эти объекты могут быть однотипными или разнотипными. Когда важно само наличие или отсутствие взаимодействия, формализация проводится на языке теории графов. Расширении графового описания количественными характеристиками приводит к сетям. Если же считается, что каждый набор объектов может быть численно охарактеризован, говорят о расстояниях или сходствах. Представлена теоретическая основа для формализации задач и построения, реализации и анализа широкого спектра моделей и методов ИАД. Исследуются эвристические модели данных, описывающие исходную информацию об объектах распознавания на основе различных реализаций понятия сходства. Рассматриваются задачи, требующие решения при реализации указанных моделей. Изучаются специальные структуры данных и алгоритмы, позволяющие эффективно настраивать и использовать изучаемые модели. Идея сходства свойственна человеческому мышлению, это породило целый комплекс подходов для всех фундаментальных задач ИАД - так называемые метрические методы. Рассмотрены методы построения и вычисления функций сходства, согласование сходства на различных множествах объектов, синтез новых способов сравнения объектов на базе уже имеющихся. Рассмотрен комплекс приёмов, предназначенный для эффективного представления и обработки метрической информации вычислительными системами. Рассматриваются характеристики графов, активно используемые при их анализе. Изучаются алгоритмы на графах - как теоретически, так и с точки зрения эффективной реализации. Различные модели роста графов. Построение репрезентативных выборок на графах. Генерация графов с заданными характеристиками. Существенное внимание в курсе уделено многочисленным формализациям кластерного анализа. Показано, какие задачи решают распространённые методы. Проведена типологизация широкого спектра задач кластеризации для гомогенных и гетерогенных систем (бикластеризация, кокластеризация). Спецкурс для магистрантов.
  • 27.02.2019 г. : Аналитический SQL (Analytical SQL), А.И. Майсурадзе, проходит по понедельникам в ауд. 507, начало в 14-35. Первое занятие 18 февраля. В наши дни автоматизация и оптимизация многих видов деятельности невозможна без сбора и последующего анализа больших объёмов информации. При этом со временем стало ясно, что некоторые модели данных особенно удобны для людей - такие модели стали универсальным языком общения с самыми разными технологиями. В этом смысле одним из самых широкоупотребительных языков оказался SQL, и сегодня самые разные технологии (совсем не только реляционные) позволяют его использовать. В курсе на практических примерах будут даваться знания и отрабатываться навыки, которые понадобятся практически любому аналитику при работе с источниками данных. Акцент делается именно на аналитической деятельности: аналитик пользуется системами сбора и хранения данных, но не собирается администрировать их. Занятия предполагают интерактивное выполнение заданий на реальных БД. Спецкурс для бакалавров.