Какое лучшее регулярное выражение или другие простые способы извлечь содержимое статьи из веб-страницы в HTML или PHP-источнике?

Существует множество сценариев, извлекающих статьи из html-страниц. Если регулярное выражение используется для получения единственной основной статьи из источника страниц HTML или PHP, то какие регулярные выражения лучше всего получать только для основной статьи. Кроме того, что является самым простым и лучшим способом получить те без регулярных выражений, только в PHP или других программах.
Некоторые сценарии используют много фильтров для извлечения основной статьи из HTML или PHP-источника с проблемами неанглийских языков, символов и многобайтовых символов. Как результат, они не могут хорошую часть основной статьи из источника, потому что выше проблемы.

Обычно основная статья должна быть в тегах ‘div’, ‘p’ или других тегах в html или PHP-источнике. Затем другие html-элементы на странице с навигацией, ссылками, выдержками и другими. Использование регулярных выражений может легко решить предшествующие проблемы путем определения многобайтовых, символьных и языковых различий в выражениях. Большая часть программного обеспечения для извлечения статей использует фильтры, чтобы найти «comment», first »,« next »,« nav »,« button »,« submit »и другие, чтобы проверить, являются ли содержащиеся в них части содержимым или другими элементами. Теги, идентификаторы, классы и другие теги, скорее всего, действительны только на английском языке и ISO-западноевропейском символе. Они не могут извлечь точную часть статьи, потому что они не понимают языки или символы, которые они пытаются отфильтровать.

Ниже приведены алгоритмы фильтрации статей из других элементов, используемых источником сценария извлечения статьи. boilerpipe используете;
(Если вы внимательно изучите файлы ‘src’.)

  1. Проверьте, достаточно ли длинны символы. (количество символов и слов)
  2. Проверьте, есть ли теги в списке подсказок, комментариях, первом, следующем, навигации и других. (поиск в массиве с регулярными выражениями или без них)
  3. Другие проверки для проверки статьи из других HTML-элементов, эвристических и других.

Существуют теории извлечения статей из веб-страниц, но не простые, чем использование регулярных выражений. Их можно преобразовать в простые регулярные выражения или другие простые программы.

boilerpipe написано на java для извлечения статей, но это слишком сложная и проблема языков и символов. Предпочтительно использовать несколько регулярных выражений и некоторые другие регулярные программы для фильтрации статьи.

Точные вещи, которые я ищу ниже

Регулярные выражения для извлечения только статей из HTML и PHP страниц.
Использование нескольких регулярных выражений для извлечения только статьи из HTML или PHP-источника без каких-либо других элементов и других выражений для проверки возможности, не связанной со статьей.

Не регулярные выражения для извлечения только статей из HTML и PHP страниц.
Использование PHP для извлечения только статьи из HTML или PHP источника без использования регулярных выражений простым способом. Кроме того, нужно проверить, если статья или нет.

Оба они не должны ограничивать язык и набор символов, например, многобайтовый и простой достаточно, чтобы вместить одну страницу.

1

Решение

Задача ещё не решена.

Другие решения

Других решений пока нет …