Internet Портал МЭИ(ТУ)
Июль 2019
Пн Вт Ср Чт Пт Сб Вс
1 2 3 4 5 6 7
8 9 10 11 12 13 14
1516 17 18 19 20 21
22 23 24 25 26 27 28
29 30 31

Формирование обучающих выборок

Существует два различных метода обучения:  один из них – объяснение, другой – обучение на примерах. Первый метод предполагает существование достаточно простых правил, которые можно изложить так, чтобы, действуя сообразно этим правилам, каждый раз получать требуемый результат. Однако во многих случаях “учитель”, проводящий обучение, не может сформулировать правило, по которому он действует, и тогда первый способ обучения неприменим и обучение проводится на примерах (индуктивно).

Разработка моделей, методов и алгоритмов, позволяющих получить применимые в будущем правила и закономерности исходя из имеющихся в наличие прошлых  примеров, проводится в рамках работ по машинному обучению (MachineLearning). Целью такого обучения является выработка правила классификации (решающего правила), позволяющего проводить распознавание также хорошо как это делает “учитель”. В отличие от дискриминантного анализа для MachineLearning нет необходимости в априорных предположениях о законе распределения и форме взаимосвязи признаков. Данный подход особенно эффективен, когда учитель не существует, недостаточно надежен или  его услуги очень дороги.

Последовательность примеров с указанием, к какому классу они относятся, называется обучающей выборкой:  (- документ, представленный в виде вектора, компонентами вектора являются веса слов; - класс, к которому относится документ; j=1,…,N;g=1,…,G;  N – объем выборки;G – количество классов).

Основным условием формирования обучающей последовательности является то, что в нее включаются элементы, которые были  случайно и независимо извлечены из генеральной совокупности.

Любая обучающая выборка обладает следующими особенностями:

>·         >обучающая выборка конечного размера не является полной, т.е. не содержит необходимого количества элементов для проведения безошибочной классификации;

>·         >элементы обучающей выборки обычно имеют произвольное распределение в пространстве признаков и, как следствие, решающее правило может обладать неодинаковой дискриминирующей способностью и достоверностью в различных областях изменения M –мерного пространства (M – количество признаков);

>·         >обучающие выборки, как правило, содержат шумовые (неотносящиеся к заданным классам) элементы и другую противоречивую или ошибочную информацию.

Общие рекомендации по выбору размера выборки заключаются в том, что для получения устойчивых результатов необходимо увеличивать объем выборки N для уменьшения соотношений M/N и G/N. Кроме того, желательно, чтобы документы всех классов были представлены в выборке равномерно, в одинаковой пропорции.

Данные рекомендации не всегда выполняются при классификации текстовых документов. Это связано с тем, что размерность задачи очень высока и количество информативных признаков может достигать десятков тысяч. В то же время увеличение размера обучающей выборки приводит к вычислительным сложностям, так как  для многих методов классификации затраты на вычисления нелинейно зависят не только от числа признаков, но и от количества наблюдений. Размер выборки, необходимой для эффективного обучения классификатора, существенно зависит от внутренней структуры (расположения наблюдений в многомерном пространстве), равномерности распределения объектов по классам, способа составления выборки, цели классификации. В большинстве задач текстовой классификации одной из важнейших проблем при формировании выборок является поиск компромисса между ее размером, способным обеспечить заданную точность, и допустимым временем расчета.

Приписывание пользователем (или экспертом) документа к  тому или иному классу может носить субъективный и дискуссионный характер. Известная закономерность garbagein, garbageout” (мусор – на входе,  мусор – на выходе) нигде не справедлива в такой степени, как при обучении классификаторов. Поэтому выборки рекомендуется составлять из БД, которые имеют свои встроенные общепризнанные и авторитетные рубрикаторы, позволяющие заменить индивидуальное мнение пользователя о классе документа на совокупное мнение нескольких независимых экспертов.

 

Вход для преподавателей



Мы находимся:
МЭИ, корпус М, 3-й этаж.
Телефон: (+7 495) 362-74-07
Кафедра управления и информатики МЭИ
Сайт создан и поддерживается лабораторией интеллектуальных информационных систем (ЛИИС) УиИ