Какой точный набор данных для текстовой классификации пакета tntsearch

Я нашел пакет для классификации текста в PHP, в котором метод для классификатора принимает предложение и категорию следующим образом:

$classifier->learn('that was a clean election', 'not sports');
$classifier->learn('that was a nice game','sports');

$classifier->guess('the game was bad');
// returns sports

Какой набор данных лучше всего подходит для этого подхода?
А также у меня есть динамическая категория, что означает, что я могу добавить дополнительную категорию. Моя проблема в том, что я должен приводить примеры в каждой добавленной категории, что означает, что мне нужно больше данных в этой категории.

0

Решение

Есть много наборов данных для этой цели, В этом документе там
Подробную информацию о главных из них я связал в следующем:

0

Другие решения

Других решений пока нет …