动态页面解析和爬取

文章没写完,更新中。。。。。。

写在前面

网络爬虫是一个很好玩的东西,网页上面的东西除了复制粘贴外,还可以通过网络爬虫批量的获取,网络搜索应该也是基于爬虫的吧。当然在大数据的背景下,互联网上的大量数据这对数据分析师而言也是一笔宝贵的财富。学会利用简单的爬虫技术爬去自己想要的内容,可以帮助自己提高自己的数据分析能力。下面简单摘要自己在写小爬虫时遇到的新知识。

遇到的问题

对于一个简单的爬虫,其实只要给我一个URL,然后我通过解析该URL返回的html就可以把我想要的东西给抽取下来。但是对于很多网站会出现一个问题,当我点击页面中的某些按钮,或者一些个下拉菜单的时候,页面并没有刷新或者跳到其他页面,也就是说URL并没有发生改变,但是页面中的内容却改变了,比如说当点击下一页的时候,这时候网络爬虫应该怎么做?

AJAX

上面遇到的问题中涉及了一种ajax动态加载技术,传统的页面如果需要更新内容则需要重新加载整个页面。而使用ajax通过在后台与服务器之间进行少量的数据交换,可以使页面实现异步更新,这就意味着可以在不重新加载整个页面的情况下对部分页面进行更新。

后记

本文是从一个对爬虫理解很肤浅的层面来写的,里面的很多术语或者名词可能不是很准确,当你看到后请掠过。
总之,你能看懂或者理解就行,当然,你可以给我留言,留下你宝贵的意见,我会及时改正。

参考