Internet Портал МЭИ(ТУ)
Июль 2019
Пн Вт Ср Чт Пт Сб Вс
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30 31

Классификация текстовых документов

Классификация представляет собой процесс разделения совокупности текстовых документов на однородные и обычно непересекающиеся группы тематически близких документов или процесс отнесения какого–либо документа к уже сформированным классам.
Принято различать классификацию и кластеризацию (автоматическую классифи-кацию), представляющую собой разбиение данных в отсутствии какой-либо предвари-тельной информации о свойствах исследуемой выборки и количества классов.
Для формализации процесса классификации текстовой информации введем поня-тия классификации в “широком смысле” и классификации в “узком смысле”. В первом случае предполагается использование комплекса моделей и методов, согласно которым производится сбор, обработка, анализ и интерпретация результатов классификации тек-стовых документов. Во втором случае решается исключительно задача разработки клас-сификаторов с заданными свойствами в целях решения конкретной узкоспециализирован-ной задачи.
Большинство известных концепций обработки и анализа различных видов инфор-мации имеют общие этапы, необходимость которых диктуется самой логикой исследова-ний. Так, концепция классификации в “широком смысле” требует решения следующих взаимосвязанных проблем:
• формулирование цели исследования;
• сбор данных и формирование обучающих выборок;
• предварительная обработка текстовой информации;
• выбор модели представления документов;
• выявление информативных признаков;
• проведение обучения классификаторов;
• представление (визуализация) результатов;
• оценивание точности и интерпретируемости результатов.

 

Вход для преподавателей



Мы находимся:
МЭИ, корпус М, 3-й этаж.
Телефон: (+7 495) 362-74-07
Кафедра управления и информатики МЭИ
Сайт создан и поддерживается лабораторией интеллектуальных информационных систем (ЛИИС) УиИ