Оценки фрода кондукторов в абсолютном выражении затрудняются тем фактом, что априори неизвестно какой кондуктор честен, а какой нет. Однако мы можем попытаться сравнить по каким-либо критериям двух кондукторов и сказать кто из них более честен. Сначала кажется, что сравнивать нужно работу кондукторов в совершенно одинаковых условиях так, чтобы и рейс и водитель и выход были одинаковыми (и, в идеале, еще и день недели). Тогда разница в каком-то пока неизвестном критерии будет зависеть только от личности кондуктора.
Однако по некоторому размышлению возникла следующая простая идея – дифференциальные характеристики работы кондуктора (основанные не на количестве транзакций за рейс в целом, а на промежутках времени между соседними транзакциями) в среднем не зависят от водителя и других факторов. Они определяются только быстротой перемещения кондуктора по салону и быстротой его работы с терминалом, насколько быстро и четко кондуктор отрывает чек, насколько редко ошибается с длительностью прикладывания карты от которой зависит пройдет ли полностью работа с картой или придется приложить еще раз и.т.д.
В качестве таких определяющих характеристик решено было взять самые простые статистические параметры – среднее время между соседними транзакциями, минимальное время между транзакциями, медианное время между транзакциями. В дальнейшем появятся более сложные комплексные критерии. Таким образом основным рядом данных из которого будет извлекаться информация является ряд временных промежутков между последовательными транзакциями данного кондуктора, который легко получается из массива времен транзакций этого кондуктора.
Однако ясно что этот ряд для работы нужно еще подготовить. В него изначально входят, например, промежутки времени между транзакцией по последнему обилеченному человеку из зашедших на предыдущей остановке и первому из тех, которые зайдут на следующей. Например, если на предыдущей остановке зашло мало людей и кондуктор их быстро обилетила, то до следующей транзакции отдыхала и конечно это время ничего не скажет о ее работе. Такие большие промежутки времени нужно убирать из исследуемого ряда данных. Значит сначала нужно кластеризовать разницы времен последовательных транзакций и выбрать нужный кластер данных. В качестве алгоритма кластеризации был взят алгоритм k-mean. Таким образом, простейшее исследование продуктивности работы кондуктора включает следующие этапы:
- Выбрать из базы транзакций интересующие по критериям (по кондуктору, водителю, рейсу и т.д.) и отсортировать по дате и времени.
- Составить ряд из промежутков времени между транзакциями.
- Кластеризовать полученный ряд и взять нужный кластер данных.
- Рассчитать интересующие величины и построить гистограмму полученного ряда.
Рассмотрим два типичных распределения времен между соседними транзакциями, полученное таким образом для двух кондукторов.
Прежде всего обращает на себя внимание тот факт, что распределения похожи на распределение Пуассона, но есть некоторые отличия. В частности, наблюдается явный всплеск транзакций при малых временных промежутках между ними. Причиной проявления этого всплеска являются те транзакции, которые кондуктор совершает практически одну за одной видимо в условиях, когда его плотно окружают люди. То есть наличие и интенсивность всплеска может зависеть от того насколько загруженные рейсы вошли в рассматриваемую подборку. Окончательная его интерпретация и возможности применения на практике требуют дальнейшего исследования.
Но кроме формы распределения те простые статистические показатели, которые рассчитаны на наш взгляд много говорят о качестве работы кондуктора. Во-первых, это среднее время между транзакциями – ясно что эта величина комплексно оценивает насколько кондуктор быстро передвигается по автобусу и четко работает с терминалом. Во-вторых минимальное время между транзакциями – эта величина оценивает четкость работы с терминалом, например такой важный фактор как быстроту отрыва билета. Конечно, сама по себе эта величина не очень информативна, что хорошо иллюстрирует подобранный пример. У обоих кондукторов минимальное время одинаково, однако по гистограмме видно, что времен близких к минимальному у кондуктора на правой диаграмме гораздо больше, то есть она гораздо быстрее в работе с терминалом. Третий показатель – медианное время между транзакциями – также помогает оценить скорость передвижения кондуктора по автобусу.
Действительно, всегда будут люди, которые вошли не в ту дверь возле которой находится кондуктор и он вынужден перемещаться по автобусу для их обилечивания. Чем быстрее это происходит, тем меньше времени проходит между соседними транзакциями и тем меньше медиана ряда промежутков времени между соседними транзакциями.
Ясно, что все эти расчеты (тем более такие простые) носят оценочный характер и нужны более сложные критерии и глубокие исследования (в том числе на большей статистике), чтобы понять какие отличия каких параметров имеют значения для принятия во внимание руководителем, но, как нам кажется, даже такая простая подборка параметров способна выявить по крайнем мере самых отстающих в производительности труда работников.