Мне нужно убедиться, что моя карта сайта XML содержит менее мусора (неработающие ссылки). Список URL исчисляется сотнями тысяч, и даже если бы можно было проверить их все 1 на 1, я бы предпочел этого не делать по многим причинам:
1 - Saved bandwidth
2 - Faster traffic for real clients
3 - Less noise in visitor statistics (because my test would count as a visit)
5 - I could go on...
Поэтому я думаю, что было бы достаточно выбрать случайное подмножество, проблема в том, что я не знаю вероятностей.
Есть ли простая функция, которую я могу использовать?
Если это поможет, мы можем предположить, что у нас есть априорная информация о вероятности разрыва связи при каждом запуске. Допустим, что при каждом прогоне есть для любой данной ссылки, которая будет сломана.