Допустимый тип содержимого для документов XML, HTML и XHTML


123

Каковы правильные типы содержимого для документов XML, HTML и XHTML?

Мне нужно написать простой поисковый робот, который выбирает только такие файлы.

В настоящее время http://example.net/index.html может служить, например, файлом JPEG из-за mod_rewrite, поэтому мне нужно проверить тип содержимого из заголовка ответа и сравнить его со списком разрешенных типов содержимого.

Откуда мне взять такой список?


Ответы:


206

HTML:, text/htmlточка.

XHTML: application/xhtml+xmlили только если следующие принципы HTML compatbility, text/html. См. Примечание о типах носителей W3 .

XML: text/xml, application/xml( RFC 2376 ).

Есть также много других типов носителей, основанных на XML, например, application/rss+xmlили image/svg+xml. Можно с уверенностью сказать, что любое нераспознанное, но зарегистрированное окончание на +xmlосновано на XML. В списке IANA указаны зарегистрированные типы носителей, заканчивающиеся на +xml.

(Для незарегистрированных x-типов все ставки отключены, но можно надеяться, +xmlчто они будут соблюдены.)


32
О различиях text/xmlи application/xmlсм. Здесь stackoverflow.com/questions/4832357/…
sanmai

То же самое верно и для фрагментов , см. W3.org/TR/xml-fragment или другие вопросы .
Питер Краусс
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.