魔兽世界黑金门:网络爬虫,你知道多少 过来看看吧

来源:百度文库 编辑:九乡新闻网 时间:2024/04/27 15:18:02
原网址:http://subject.csdn.net/spider.htm
 
编者按:

 

       网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。

       下面一系列文章将对爬虫技术做详细的介绍,希望大家最终能够做出自己喜爱的爬虫哦

 


专题文章

如何构造一个C#语言的爬虫程序

C#特别适合于构造蜘蛛程序,这是因为它已经内置了HTTP访问和多线程的能力,而这两种能力对于蜘蛛程序来说都是非常关键的。本文提供的HTML解析器由ParseHTML类实现,使用非常方便。

◆ 使Web爬虫程序能高效地搜索您的门户站点和Web站点

直到现在,web 爬虫程序和站点管理员不得不花大量的时间来解决如何优化某个站点的爬行能力,然后才能搜索到宿主在这个 Web 站点上的相关信息。完成 Sitemap XML 文件后,便可以向支持这一协议的站点提交站点地图的 URL,这样 web 爬虫程序便可以使用该文件了。

◆ 泰然处之,网络爬虫程序实例

◆ 用Python写一个小小的爬虫程序

相关博客

搜索引擎中网络爬虫的设计分析

简单介绍一下搜索引擎的机器爬虫的制作和一些基本要注意的事项。说的简单易懂一些,网络爬虫跟使用的”离线阅读“工具差不多。那么依据特征,如何设计爬虫呢?要注意哪些步骤呢?

◆ 蜘蛛/爬虫程序的多线程控制(C#语言)

在《爬虫/蜘蛛程序的制作(C#语言)》一文中,已经介绍了爬虫程序实现的基本方法,可以说,已经实现了爬虫的功能。只是它存在一个效率问题,下载速度可能很慢。这是两方面的原因造成的

◆ 网络爬虫技术

◆ 搜索引擎蜘蛛捕捉器(PHP)

◆ 图论和网络爬虫

◆ PHP 的搜索引擎技术

意见反馈:
CSDN登载此专题出于传递更多信息之目的,如果您有什么好的意见和看法,请您留下宝贵意见。希望能给您的工作和学习带来帮助。意见反馈:duqian@csdn.net