Вопросы с тегом «scraping»

2
Самый эффективный (время, стоимость) способ очистить 5 миллионов веб-страниц?
У меня есть список веб-страниц, которые мне нужно очистить, проанализировать и затем сохранить полученные данные в базе данных. Всего около 5 000 000. Мое текущее предположение о наилучшем способе достижения этой цели состоит в том, чтобы развернуть ~ 100 экземпляров EC2, предоставить каждому экземпляру по 50 000 страниц для очистки …

7
Как избежать соскоба?
У нас есть база данных с возможностью поиска (БД), мы ограничиваем результаты до 15 на страницу, и только 100 результатов все же заставляют людей пытаться очистить сайт. Мы запрещаем сайты, которые поразили его достаточно быстро. Мне было интересно, есть ли что-нибудь еще, что мы можем сделать. Flash рендеринг результатов может …
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.