1.概述爬虫，怎么分析网页中的html

2.问题

我们最近要需要抓取豆果的文章下来，然后存到我们的数据库。问题是我们抓取到的都是html代码，怎么将从里面分析出标题，封面图片，材料，步骤等结构化的数据呢？ # 3.解决 ## 3.1.正则表达式

使用正则表达式获取数据

/<div class=”xtip”>.*<\/div>/ 正则的代码很难懂，维护性实在很头痛。 ## 3.2.jquery选择器如果我们在浏览器上，要获取某个div的text，我们只需要用jQuery选择器做这么一件事$(‘.xtip’)。那么，在服务器上我们可以用类似jquery的语法来获取某个元素的数据么？答案是phpQuery## 3.3.headerless browser 对于富ajax应用，第一次拉数据时返回的只是js文件，需要抓取数据都需要靠ajax来运行，怎么破？既然数据需要ajax来运行，那么我们就在服务器上运行一个浏览器吧，然后在浏览器上插入我们的js代码，监控所有ajax返回的数据。 # 4.其他问题 ## 4.1.频率校验抓取太频繁，会被抓的。解决方案是，降低频率，换IP，换user-agent## 4.2.登陆态需要登陆才能抓取数据的网站怎么做爬虫？## 4.3.验证码需要验证码才能抓取数据的网站怎么破？ # 5.解决现在，你可以写一个12306抢票软件了。

本文作者： fishedee

版权声明：本博客所有文章均采用 CC BY-NC-SA 3.0 CN 许可协议，转载必须注明出处！

爬虫

1.概述爬虫，怎么分析网页中的html

2.问题

相关文章