Классификация документов: различия между версиями

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску
[отпатрулированная версия][отпатрулированная версия]
Содержимое удалено Содержимое добавлено
VolkovBot (обсуждение | вклад)
м робот добавил: it:Text categorization
VolkovBot (обсуждение | вклад)
м робот добавил: fa:دسته بندی اسناد
Строка 49: Строка 49:
[[es:Clasificación de documentos]]
[[es:Clasificación de documentos]]
[[eu:Dokumentuen sailkapena]]
[[eu:Dokumentuen sailkapena]]
[[fa:دسته بندی اسناد]]
[[fi:Dokumenttien luokittelu]]
[[fi:Dokumenttien luokittelu]]
[[fr:Classification et catégorisation de documents]]
[[fr:Classification et catégorisation de documents]]

Версия от 11:08, 15 апреля 2010

Классификация документов — одна из задач информатики, заключающаяся в отнесении документа к одной из нескольких категорий на основании содержания документа.

Использует методы информационного поиска и машинного обучения.

Следует отличать классификацию текстов от кластеризации, в последнем случае тексты также группируются по некоторым критериям, но заранее заданные категории отсутствуют.

Постановка задачи

Имеется множество категорий .

Имеется множество документов .

Неизвестная целевая функция .

Необходимо построить классификатор , максимально близкий к .

Имеется некоторая начальная коллекция документов, для которой известны значения . Обычно её делят на «обучающую» и «проверочную» части. Первая используется для обучения классификатора, вторая — для независимой проверки качества его работы.

Классификатор может выдавать точный ответ или степень подобия .

Этапы обработки

Индексация документов
Построение некоторой числовой модели текста, например в виде многомерного вектора слов и их веса в документе. Уменьшение размерности модели.
Построение и обучение классификатора
Могут использоваться различные методы машинного обучения: решающие деревья, наивный байесовский классификатор, нейронные сети, метод опорных векторов и др.
Оценка качества классификации
Можно оценивать по критериям полноты, точности, сравнивать классификаторы по специальным тестовым наборам.

Применение

См. также

Ссылки