观点1.
不用
来源
http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags/1732454#1732454链接内容简言之:
1) HTML 不是正则语言,无法用正则表达式解析;
2) 如果 HTML 是已知的,问题还可以掌控;
3) 类似爬虫这种,你永远不会知道你会遇到怎样复杂的 HTML;
4) 合法的 HTML 都无法用正则解析,更不用说你还会碰到不合法但是浏览器可以支持的 HTML 了。
观点2
推荐使用
来源
http://www.cnblogs.com/-ajian/p/3606306.html获取链接建议用正则表达式,解析整个HTML非常耗时,哪怕使用最快的lxml,依然会比Python里的正则表达式慢四倍以上。而且还有大量的不规范HTML,处理起来很麻烦。正则的问题是会匹配到script里的网址,可以简单总结一下遇到的不正常URL,过滤一下即可。
我个人是简单网页用正则,复杂网页正则搞不定的用xpath
不知道大家如何处理的?
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
https://study.congcong.us/t/124132
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.