XML、HTML和XHTML文档的正确内容类型是什么?
我需要写一个简单的爬虫,只获取这些类型的文件。
例如,由于mod_rewrite,现在http://example.net/index.html可以提供JPEG文件,所以我需要检查响应头中的内容类型,并将其与允许的内容类型列表进行比较。
我可以从哪里获得这样的列表?
发布于 2010-06-03 20:01:41
HTML:text/html
,句号。
XHTML:application/xhtml+xml
,或者只有在遵循HTML兼容性准则的情况下,才使用text/html
。请参见W3 Media Types Note。
XML:text/xml
,application/xml
(RFC 2376)。
还有许多其他基于XML的媒体类型,例如application/rss+xml
或image/svg+xml
。可以肯定的是,任何未被识别但已注册的以+xml
结尾的内容都是基于XML的。有关以+xml
结尾的已注册媒体类型,请参阅IANA list。
(对于未注册的x-
类型,所有的赌注都是无效的,但您希望+xml
会得到尊重。)
https://stackoverflow.com/questions/2965587
复制相似问题