В продолжении статьи попытаемся определить хотя бы в первом приближении те параметры и их особенности, которые позволят сделать вывод о том, что кондуктор фродит на продаже наличных билетах. Прежде всего, отметим, что мы априори не знаем степень воровства каждого кондуктора и, соответственно, нам сложно оценить на какие параметры реальных статистических распределений времен транзакций обращать внимание и какие паттерны в этом временном ряду обращать внимание. Одним из подходов к решению этого вопроса (хотя бы предварительному) может быть имитационное моделирование работы кондуктора в различных режимах работы – с фродом и без – и анализ полученных данных. При адекватном выборе модели вполне возможно, что удастся определить те характеристики в статистике на которые следует обратить внимание для определения фрода.
Как известно хорошая модель должна сохранять самые важные особенности изучаемого явления, которые верно отражают желаемые характеристики исследуемого процесса. И в то же время из модели нужно выбросить несущественное для ее максимального упрощения. И вопрос что оставить, а что выкинуть является при составлении подобных моделей одним из самых важных. По большому счету решается он методом перебора – попробуем максимально упростить модель и сравним результаты моделирования с реальностью. Если они будут эту реальность воспроизводить в главном, то можно, во-первых, пробовать определить характеристики фрода и, во-вторых, усложнять модель для более точного воспроизведения реального временного ряда транзакций.
Примем следующие положения моделирования:
- Автобус представляем сеткой конечных размеров. Кондуктор и пассажиры помещаются в узлы этой сетки.
- За единицу модельного времени кондуктор перемещается в соседний узел по вертикали или горизонтали. Направление движения кондуктора определяется ближайшим (в смысле расстояния Чебышева) к нему необилеченным пассажиром.
- Между остановками проходит одинаковое время.
- На каждой остановке заходит одинаковое число пассажиров. При этом считаем что пассажиры проявляются на сетке в незанятых узлах сетки случайным образом с одинаковой вероятностью для каждого узла.
- При обилечивании считаем что оно занимает некоторое константное время различное для наличных денег и карт (для карты больше, так как у нас онлайн-транзакции). Будет платить текущий пассажир картой или наличными решается случайным образом исходя из реального процента карт на транспорте в исследуемом городе.
- После обилечивания пассажира убираем.
- Фрод моделируется следующим образом – в случае наличной транзакции случайным образом она не фиксируется в массиве времен транзакций. Это эквивалентно тому, что билет от предыдущей наличной транзакции, который пассажир не получил на руки по каким то причинам, сразу передается пассажиру со следующей наличной оплатой.
Таким образом типичная картина рабочего поля во время моделирования выглядит следующим образом: (рисунок 1).
Рисунок 1
Работа модели в реальном времени
По результатам моделирования проведен анализ, подобный анализу в нашей предыдущей работе. На следующем рисунке приведен типичная гистограмма распределения времен между транзакциями для модельного кондуктора и рейса с параметрами типичными для работы большого автобуса в городе с населением 100-200 тысяч человек (взяты из практики).
Рисунок 2
Видно, что основные параметры распределения совпадают с типичными параметрами в оценке производительности труда кондуктора. То есть мы можем говорить, что включив фрод в моделировании можно попытаться определить характеристики распределения на которые он влияет. В качестве таких характеристик прежде всего естественно взять самые простые – среднее и медианное времена между транзакциями. Из общих соображений ясно, что при увеличении фрода эти времена будут расти, так как фрод исключает из рассмотрения некоторые наличные транзакции, которые обычно быстрее проходят чем безналичные. И моделирование подтверждает это соображение. Приведем некоторые числа (для типичного моделирования):
Среднее время
без фрода
6.997
Среднее время
с фродом 10%
7.724
Медианное время
без фрода
6.000
Медианное время
с фродом 10%
6.000
Из таблицы видно, что среднее время в ситуации с фродом выросло и, кроме этого, в случае с фродом существенно выросла разница между средним и медианным временем. Эти метрики можно попытаться использовать для определения кондукторов с наибольшим процентом воровства.
В дальнейшем предполагается избавиться от ряда ограничений модели с целью более правильного описания распределения времен между транзакциями (например, нужно добиться проявления пика на малых временах) и уточнения и расширения исследуемых метрик.