Организация и классификация книг в библиотеках и онлайн-магазинах является важным заданием. Однако, часто встречается ситуация, когда описания книг являются неполными или содержат некорректную информацию о жанре или тематике произведения. Это может стать проблемой при поиске и подборе книги читателями.
В данной статье будет рассмотрен легкий и эффективный способ присвоения дефолтной рубрики мусорным описаниям книг в датасете. Этот метод позволяет автоматически определить и отнести описания книг к определенному жанру или категории, в случае если информация о рубрике отсутствует или неправильно указана.
Для этого используется алгоритм машинного обучения, который основывается на анализе текста описания книги и его семантическом анализе. Алгоритм обучается на большом объеме текстов данных, содержащих информацию о жанрах и категориях книг, и на основе этого обучения присваивает дефолтную рубрику для описания, которое требует классификации.