Недавно я узнал, что использование регулярного выражения для анализа HTML-кода веб-сайта для получения необходимых данных - не лучший способ действий.
Поэтому мой вопрос прост: что же является лучшим / наиболее эффективным и в целом стабильным способом получения этих данных?
Я должен отметить, что:
- Там нет API
- Нет другого источника, откуда я могу получить данные (нет баз данных, каналов и т. Д.)
- Нет доступа к исходным файлам. (Данные с общедоступных сайтов)
- Допустим, данные представляют собой обычный текст, отображаемый в виде таблицы на html-странице
В настоящее время я использую python для своего проекта, но решение / советы, не зависящие от языка, было бы неплохо.
В качестве побочного вопроса: как бы вы поступили, когда веб-страница создается с помощью Ajax-вызовов?
РЕДАКТИРОВАТЬ:
В случае разбора HTML я знаю, что на самом деле нет стабильного способа получения данных. Как только страница изменится, ваш парсер будет готов. В данном случае я имею в виду стабильный: эффективный способ анализа страницы, который всегда дает мне одинаковые результаты (очевидно, для одного и того же набора данных) при условии, что страница не изменяется.