Internet Портал МЭИ(ТУ)
Июль 2019
Пн Вт Ср Чт Пт Сб Вс
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 2324 25 26 27 28
29 30 31

Методы оценки точности классификации

На последнем этапе предлагаемой в данной работе концепции классификации в “широком смысле” необходимо оценить точность полученных результатов. Для этого обычно используется ошибка обучения, оценка которой определяется по обучающей выборке, или ошибка обобщения, оценка которой рассчитывается по экзаменационной выборке. Величина ошибки обучения может служить мерой корректности использования конкретного классифицирующего правила для анализа данной выборки, т.е. представляет собой ошибку adhoc (на этот случай). Однако ее малое значение не гарантирует малости ошибки обобщения, т.е. количества ошибок, которые классификатор допускает на примерах, не использовавшихся при обучении. Именно анализ ошибки обобщения представляет наибольший интерес, так как характеризует классифицирующее правило, показывая на какое количество новых наблюдений удается распространить закономерности и эвристики, полученные во время обучения.

На практике используется четыре основных подхода для получения оценки ошибки обобщения.

1.Оценка по экзаменационной выборке.  Исследуемую выборку делят на две части. По первой (обучающая выборка размера >>) проводится оценка настраиваемых параметров метода и построение решающего правила (обучение метода), по второй (экзаменационная выборка размера , обычно  ) определяется оценка вероятности ошибок.

.                                                                                              

Ошибка на элементе  экзаменационной выборки определяется  следующим образом:

               

К недостаткам этого способа следует отнести уменьшение объема выборки, используемой при обучении (соответственно уменьшается возможное число оцениваемых параметров в алгоритме и допустимое количество признаков, описывающих документ). 

2. Оценка с помощью скользящего контроля (экзамена).  Для обучения используется вся выборка, кроме одного элемента, который применяется для проверки. Затем этот элемент включается  в общий массив, а для контроля извлекается другое наблюдение. Данная процедура повторяется для всех членов  исходной выборки, объем которой все время равен N1(N – объем всей выборки).

.                                                                                          

3.Метод v–кратной перекрестной проверки (vfoldcrossvalidation). Представляет собой v случайным образом сформированных подвыборок размера  из исходного множества документов размера (обычно v=5 или v=10). При этом (v–1) подвыборок объединяются в обучающую выборку, а одна подвыборка является экзаменационной (поэтому данный метод иногда называют v–кратным скользящим экзаменом). Повторяется v–циклов и вычисляется средняя ошибка.

.                                                                                     

На практике v–кратная перекрестная проверка используется преимущественно для настройки параметров методов классификации и определения количества информативных признаков.

4. Метод статистического моделирования (или бутстрепbootstrap). Бутстреп-процедура представляет собой способ управления выборкой в ходе обработки и анализа данных. Она наиболее эффективна в условиях ограниченного количества наблюдений и предназначена для проведения многократного обучения и тестирования. В бутстреп-процедуре обучающая выборка принимается за генеральную совокупность и из нее случайным образом составляются обучающие и экзаменационные подвыборки.  Усреднение результатов проводится аналогично тому, как это делается в методе v–кратной перекрестной проверки в зависимости от количества сформированных подвыборок.

 

Вход для преподавателей



Мы находимся:
МЭИ, корпус М, 3-й этаж.
Телефон: (+7 495) 362-74-07
Кафедра управления и информатики МЭИ
Сайт создан и поддерживается лабораторией интеллектуальных информационных систем (ЛИИС) УиИ