Сравнение алгоритмов СППРП Сокол на различных выборках полиграмм
В выборку из 374 полиграмм с известным решением входят полиграммы американского и российского происхождения. Все американские полиграммы записаны с использованием трёх каналов: Манжета, ЭДА, Дыхание. В российскую выборку входят полиграммы с различным сочетанием каналов Манжеты и ФПГ с каналами Дыхания и ЭДА.
В каждом из столбцов жёлтым цветом выделены два лучших значения показателя. Чем больше выделенных желтым цветом показателей в строке, соответствующей алгоритму, тем лучше. Основные показатели ‒ F и Inc (нет решения). F ‒ это так называемая f-метрика ‒ среднее гармоническое recall и precision. В отличии от Accuracy она лучше отражает свойство точности алгоритма в случае несбалансированной выборки. Из алгоритмов лучшие показатели на 374 полиграммах имеет ПолиЛог. Среди мета-оценщиков ‒ MA №2. В американской выборке полиграмм выполняется принцип один опрашиваемый ‒ один тест. В российской же выборке от одного опрашиваемого может быть несколько тестов, и имеется тенденция к увеличению тестов, проведённых с одним опрашиваемым, в случае плохой физиологии. Эта тенденция естественным образом приводит к ухудшению показателей алгоритмов. Поэтому ниже приведено сравнение показателей, полученных на российской выборке при формировании которой соблюдён принцип один опрашиваемый ‒ один тест с показателями, полученными на американских тестах.
За некоторым исключением на российской выборке улучшились показатели точности (F). На обеих выборках лучшие показатели имеет ПолиЛог и MA №2. Хотя последний на американской выборке имеет совпадающие показатели с МА №1. Видно, что показатели алгоритмов на американской выборке существенно лучше. Особенно в части «нет решения», этот показатель в два и более раза меньше. С одной стороны, это говорит о лучшем качестве физиологии на американских полиграммах. Но с другой - от части это возможно происходит по причине наличия в российской выборке полиграмм с отсутствием Манжеты. Имеются основания считать, что ПГ обладает худшими дискриминационными свойствами по сравнению с Манжетой. Соответственно при отсутствии Манжеты можно ожидать ухудшения дискриминационных свойств. Что бы проверить это предположение было произведено сравнение выборок российских полиграмм с включением Манжеты и с ФПГ.
Результаты алгоритмов на выборке с Манжетой значительно лучше, чем на выборке с ФПГ. F-метрика заметно больше, а показатель «нет решения» примерно в два раза меньше. Это подтверждает утверждение о том, что ФПГ обладает худшими дискриминационными свойствами по с сравнению с Манжетой. Вместе с тем результаты алгоритмов на российской выборке с Манжетой остаются хуже, чем на американской выборке. Особенности это касается показателей «нет решения». Физиология на иностранных полиграммах по прежнему лучше, чем на отечественных. Можно гарантировать, что отбор полиграмм в российскую выборку производился случайным образом «как есть», без отбора по качеству. В случае американской выборки нет основания говорить об отборе по качеству, но и гарантировать его отсутствии нельзя. Если же такой отбор отсутствует, то можно говорить, что американские полиграфологи записывают более качественные полиграммы.
На выборке российских полиграмм С Манжетой и ФПГ результаты алгоритмов заметно лучше, чем на выборке с одним ФПГ. То есть присутствие Манжеты улучшает дискриминационные свойства алгоритмов. И хотя эти результаты остаются хуже, чем на выборке с одной Манжетой говорить о ненужности или даже вредности ФПГ не стоит так как это может быть эффектом конкретной выборки. В таблицах 13 и 14 находятся результаты алгоритмов на выборке полиграмм с известным решением, записанных на полиграфе КРИС. Эту выборку можно назвать нестандартной в том смысле, что запись показателей физиологических реакций, по необходимости, производилась на отличных от стандартных временных промежутков. Кроме того, в неё входит некоторое число тестов, сделанных в одно предъявление. Более того в качестве показателя ФПГ в этой выборке выступала длина линии ФПГ. Не смотря на эти особенности, все алгоритмы показали на этой выборке хорошие результаты точности, но при больших показателях «нет решения».