Internet Портал МЭИ(ТУ)
Июль 2019
Пн Вт Ср Чт Пт Сб Вс
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 2324 25 26 27 28
29 30 31

Меры разнородности классификаторов

В общем случае выбор методов для включения в КРП можно осуществлять простым перебором всех возможных комбинаций, выбирая комитет с наименьшей ошибкой. Однако такой КРП вряд ли будет обладать свойством устойчивости, не обеспечивая высокую точность классификации на других выборках. Кроме того, перебор всех комбинаций крайне ресурсозатратная процедура нелинейной сложности.

В ряде публикаций для обеспечения точности формируемого комитета и отбора по возможности независимых решающих правил для объединения в КРП предлагается использовать не перебор комбинаций или анализ дисперсии, а расчет, как представляется, более информативного показателя –  меры разнородности классификаторов (diversity), включенных в комитет. В настоящее время для формализации понятия разнородности чаще всего используется несколько характеристик: >>статистика, коэффициент корреляции, мера несогласия.

  >>статистика.. Она показывает связь между ошибками, которые допускаются двумя решающими правилами >> и >> из коллектива:  >>.         

Здесь >> – вероятность, что оба решающие правила >> и >> сделали правильную классификацию; >>– вероятность, что решающее правило >> сделало правильную классификацию, >> – неправильную; >>– вероятность, что решающее правило >> сделало правильную классификацию, >> – неправильную; >>– вероятность, что оба решающие правила >> и >>сделали неправильную классификацию.

Если >>, то решающие правила >> и >> - независимы. В общем случае >>.

Затем полученная статистка усредняется для всего множества решающих правил: >>.                                                                                              

Коэффициент корреляции.. В случае текстовой классификации, результаты которой имеют дискретные значения “0” (класс определен верно) и “1” (класс определен ошибочно), коэффициент корреляции >> вычисляется по формуле:

>> >>.                                                     

Усредненный коэффициент корреляции вычисляется по формуле:

>>.                                                                                        

Для любых двух классификаторов >>–статистика и коэффициент корреляции имеют одинаковый знак и доказано, что >>.

Мера несогласия. Она вычисляется как отношение количества документов, по которым классификаторы принимают различные решения, к общему числу документов в выборке. Мера несогласия >> вычисляется по формуле:

>>.                                                 

Здесь N – длина выборки. Усредненное значение меры несогласия имеет вид:            

>>.                            

 

Вход для преподавателей



Мы находимся:
МЭИ, корпус М, 3-й этаж.
Телефон: (+7 495) 362-74-07
Кафедра управления и информатики МЭИ
Сайт создан и поддерживается лабораторией интеллектуальных информационных систем (ЛИИС) УиИ