一?超文本传输协?br />
超文本传输协议(Hypertext Transfer Protocol, HTTP?是Web的基础协议。为了本章的完整,首先对HTTP进行简要的介绍,然后重点讲解如何实现Web信息的收集?br />
HTTP是一个简单的协议。客户进程建立一条同服务器进程的TCP连接,然后发出请求并读取服务器进程的应答。服务器进程关闭连接表示本次响应结束。服务器进程返回的内容包含两个部分,一?ldquo;应答?rdquo;(response header),一?ldquo;应答?rdquo;(response body),后者通常是一个HTML文件,我们称之为“网页”?br />
在Linux(或window)环境下,有一个简单的方法可以让我们来感受一下HTTP协议的工作情况,即运行一个Telnet的客户程序与一个HTTP服务器程序通信?br />
下面是获取北京大学主页的例子(注意,下面显示的从服务器得到的内容不包括上?ldquo;应答?rdquo;)?br />
1 关于HTTP协议的详细介绍可以参看RFC2068 Hypertext Transfer Protocol -- HTTP/1.1 [RFCs,2004]。此外,在很多书中都有专门的章节进行介绍,如:《TCP-IP详解卷三:TCP事务协议,HTTP,NNTP和UNIX域协议》的?3章HTTP:超文本传送协议;《UNIX技术大?mdash;Internet卷》的?1章超文本传输协议简介?• 29 •
第三?Web 信息的搜?br />
[webg@BigPc ]$ telnet// 连接到服务器?0号端?br />
Trying 162.105.129.12... // 由Telnet客户输出
Connected to rock.pku.cn (162.105.129.12). // 由Telnet客户输出
Escape character is ‘^]’. // 由Telnet客户输出
GET / // 我们只输入了这一?br />
<html> // Web服务器输出的第一?br />
<head>
<title>北京大学</title>
…… // 这里省略了很多行输出
</body>
</html>
Connection closed by foreign host. // 由Telnet客户输出
我们只输入了GET /,服务器却返回了很多字节。这样,从该Web服务器的根目录下取得了它的主页。Telnet的客户进程输出的最后一行信息表示服务器进程在输出最后一行后关闭了TCP连接?br />
一个完整的HTML文档?lt;HTML>开始,?lt;/HTML>结束。大部分的HTML命令都像这样成对出现。HTML文档含有?lt;HEAD>开始、以</HEAD>结束的首部和?lt;BODY>开始、以</BODY>结束的主体部分。标题通常由客户程序显示在窗口的顶部。关于HTML规范的详细介绍可以参看[W3C,1999]?br />
在接下去的几节中,将通过一个小的搜索引擎系统TSE(运行在Red Hat Linux 8.0以上的系统中)[TSE,2004]的循序渐进实现,一边讲原理技术,一边讲代码,描述Web信息搜集的过程,本处的Web信息搜集主要指网页信息?br />
网页搜集子系统,就是第一章第二节和第二章第五节中讲到的spider,可以用C/C++、Perl、Java,Python等语言来编写,可以运行在Intel, Sparc, Mac等平台上的Unix或Window系统下。网?ldquo;爬取?rdquo;(gatherer),指网页搜集子系统中根据URL完成一篇网页抓取的进程或者线程,通常一个spider会同时启动多个gatherer并行工作。Spider设计是否合理将直接影响它访问Web的效率,影响搜集数据的质量,另外,在设计spider时还必须考虑它对网络和被访问站点的影响,因为spider一般都运行在速度快、带宽高的主机上,如果它快速访问一个速度比较慢的目标站点,就有可能会导致该站点出现拥塞甚至宕机。Spider还应遵守一些协议(例如:robot限制协议[Wong,1997]),尊重被访问站点管理员确定的内容保护策略?br />
相关文章
最新文?/strong>
超文本传输协?/a>10.09 网络营销研究的目的和意义10.07 seo思想09.26 详解猫扑网营销模式06.19 baidu怎么做自我优化的06.14 如何让Baidu.Google蜘蛛快速更新你的网..06.07
评论
热点展会
- 心态放正,seo才能无往而不?/a> 05.21
- SEO之怎样分析对手网站 05.24
- 黑帽SEO常用链接作弊手段 05.22
- SEO?3% 你学到了吗? 05.26
- 如何让Baidu.Google蜘蛛快速更.. 06.07
SEO技?/span>
最新加?/span>
- 超文本传输协?/a> 10.09
- 网络营销研究的目的和意义 10.07
- seo思想 09.26
- JavaScript对SEO的影响及解决.. 09.20
- 搜索引擎营销的基本步?/a> 09.20




热门推荐?/div>
