文档库 最新最全的文档下载
当前位置:文档库 › 搜索引擎的网页排名问题数学实验报告

搜索引擎的网页排名问题数学实验报告

搜索引擎的网页排名问题数学实验报告
搜索引擎的网页排名问题数学实验报告

[实验七] 搜索引擎的网页排名问题

姓名:蒋芬

学号:1012211139

一、实验目的

本实验涉及线性代数的一些知识,通过搜索引擎的排名算法介绍了正矩阵,列随机矩阵的一些性质,特征值与特征向量的关系以及用于计算矩阵特征值的幂迭代法.

二、问题的提法

今天,如果你打算了解某种信息,多半会利用互联网.在google首页搜索栏输入一些关键词,跟此有关的网页会很快迅速显示出来,也许只用不到一秒钟.而且这些网页会依照某些次序排列,通常是越靠前的越重要(也许是关注的人越多).那么google的搜索引擎是如何做到这一点的呢?

三、背景介绍

随着互联网的高速发展,网络已经成为现代人生活的一个重要组成部分. 从网络上搜索信息已成为继电子邮件后的第二大互联网应用. Google搜索引擎是世界上最大的免费搜索引擎. 目前,它对超过80多亿个网页进行整理,每天需提供的查询服务超过2亿次.

当我们在Google搜索引擎中输入一些关键词后,Google会在很短的时间内从数以亿计的网页中搜索与关键词匹配的网页,并给网页的显示顺序. 事实上,Google会定期地对互联网上所用的网页进行搜索,并将结果保存在自己的数据库中. 所以,表面上看是我们通过Google进行网上搜索,而实际是在Google网站的数据库里进行搜索.

那么Google又是如何给出网页的排名情况的呢?这就要从搜索引擎排名算法说起. Google PageRank是Google独有的搜索引擎排名算法, 作用是衡量特定网页相对于搜索引擎索引中的其他网页而言的重要程度. 它是由Larry Page和Sergey Brin在20世纪90年代后期发明的. Page Rank实现了将链接价值概念作为排名因素.

我们知道Google 工具条上有一个绿色的PageRank标尺,就是用来指示网站的链接广泛度的。PageRank值从0到10.这里的链接包括网站内部链接、导

出链接和导入链接,其中最重要的是导入链接. Google 通过统计这些链接的质量和数量来给网站确定PageRank 值,值越高排名也就越高.

如果你想查看自己站点的PR 值,可以访问:

https://www.wendangku.net/doc/ed2558835.html,/T5/intl/zh-CN/index.html ,下载Google 的工具栏,就可以看到自己网站的PR 值.

Google PageRank 现在还在使用中,不过已经是一个更大的系统中的一部分. 其他部分还包括语言模块,查询模块,时间模块,个性化模块等.

PageRank 算法主要用到了线性代数的一些知识,包括正矩阵,列随机矩阵的一些性质,特征值与特征向量的关系以及用于计算矩阵特征值的幂迭代法. 四、 数学模型

Ⅰ.有向图的定义

数学中所谓的“图”是指某类具体事物和这些事物之间的联系.如果我们用点表示这些具体事物,用连接两点的线段(直的或曲的)表示两个事物的特定的联系,就得到了描述这个“图”的几何形象.

记这些点为)2,1(n i v i =,而它们的连线用),(j i v v 表示,记为k e ,那么一个图G 是指一个二元组))(),((G E G V ,其中:

1) (){}n v v v G V ,,,21 =是非空有限集,称为顶点集,其中元素称为图G 的顶点.

2)},,,{)(21m e e e G E =是顶点集)(G V 中的无序或有序的元素对),(j i v v 组成的集合,称为边集,其中的元素称为边. 若图G 中的边均为无序对,称G 为无向图,若图G 中的边均为有序对,称G 为有向图.

图7.1

这样,假定某个网络包含n 个网页,每个网页用一个数字k 标记,

1k n ≤≤。则该网络可以用一个有向图来表示,其中每个顶点看成是一个网页,边(箭头)表示从一个网页到另一个网页的链接. 当网页j 上有连到网页i 的链接,则称网页j 为网页i 的导入链接,而称网页i 为网页j 的导出链接. 比如,图7.1就可以看成是一个包含5个网页8个链接的小型网络,其中网页3有3个导入链接.

1

2

3

4 5

Ⅱ 邻接矩阵

有向图G 的邻接矩阵为{}

G ij g =,其中

?

??=.01的连线到若不存在元素从的连线,到元素若存在从i j i j g ij (7.1)

对于图7.1所示的有向图,其邻接矩阵为

1

00010100G 1

0011010010

001

0????????=????????

我们用k x 表示某个网络中第k 个网页的重要性,k x 是一个非负的正数,若

i j x x >则表示第i 个网页的重要性大于第j 个网页的重要性.

五、 排名问题的算法

Ⅰ. 简化的PageRank 算法

一种简单的衡量某个网页重要性的方法是看谁的导入链接最多. 由图7.1可得:11x =,22x =,33x =,42x =,51x =. 从而得到第3个网页的重要性最大,第2,4个网页的重要性其次,而第1,5个网页的重要性最小.

然而上述排名算法显然不能令人满意,它不能区分第2,第4两个网页和第1,第5两个网页哪个更重要. 一种改进的做法是除了考虑导入链接的数量外,还应考虑导入链接的质量,即来自一个重要性相对较高网页的链接可以增加该网页的重要性. 用数学语言可表达如下:

若网页j 包含j n 个导出链接,其中的某个链接到了网页k (即第k 个网页),则该链接赋给网页k 的重要性为

j

j n x ,即网页j 的重要性被平分到其每个导出链接

上. 令{}1,2,,k L n ? (注意这里的数字是表示网页的标记)为链接到网页k 的那些网页的集合,则网页k 的重要性可以由下式得到

k

j

k j L j

x x n

∈=

∑ (7.2)

如果引进矩阵A 称为链接矩阵,其元素

?????=..

1其他,

链接到网页若从网页i j n a j

ij

那么(7.2)式等价于j n

j kj k x a x ∑==1

,也即等价于矩阵方程

x Ax = (7.3)

其中()12x T

n x ,x ,x = .

不难验证:

A=GD

其中G 为邻接矩阵,}1

,,1,1{diag D 21n

n n n =为对角矩阵.

注意方程(7.3)的解就是矩阵A 对应于特征根1的特征向量,若规定1

1n

i

i x

==∑,

则对应的解就是矩阵A 对应于特征根1的归一化特征向量.

定义1:若一个方阵的所有元素均非负,且每列的和均为1,则该方阵称为列随机矩阵.

由上述定义可知,若某个网络的每个网页都有导出链接,则其链接矩阵必为列随机矩阵.

定理1:列随机矩阵一定存在特征根1.

证明:记A 是一个n 阶的列随机矩阵,e 是一个n 维的元素全为1的列向量。由定义1,易知e e A =T ,即1是矩阵T A 的特征根。又因为A 与T A 有相同的特征根,所以A 一定存在特征根1。

例如,由图7.1所示的小型网络,可得:

????????????

?

?

?=02

10

0210021021210021001021000210A 利用MATLAB :在命令窗口键入:

A=[0 0.5 0 0 0;0.5 0 1 0 0;0.5 0 0 0.5 0.5;0 0.5 0 0 0.5;0 0 0 0.5 0];

[V,D]=eig(A); diag(D)

就得到矩阵A 的所有特征值,包括特征值1. 再键入

abs(V(:,1))/norm(V(:,1),1) 则可以得到A 对应于特征根1的归一化特征向量.

()x 0153803077023080205101026T

.,.,.,.,.=

这说明按照上述方法的网页排名为:23415x x x x x >>>>。

然而,上述方法仍然存在以下不足:

(1)若网络中存在导出链接数为0的网页,则链接矩阵A 中必存在某列全为0. 此时,可验证A 的所有特征值的模都小于等于1,且1不一定是A 的特征值.

解决这个问题的方法是采用所谓的Perron 特征向量来进行排名,即A 中一定存在一个正的特征值1λ≤,其对应的正的归一化特征向量称为Perron 特征向量. 我们在这里不讨论这种方法的理论依据,而通过例子来说明算法.

我们来考察由图7.2所示的小型网络,易见网页3无导出链接

图7.2

其对应的链接矩阵A 为:

??????????

? ??

=00

2

13

121021310003

121000A 利用MATLAB:

A=[0 0 0 0.5;1/3 0 0 0;1/3 0.5 0 0.5;1/3 0.5 0 0];

1

3

2

4

[V,D]=eig(A); diag(D)

输出的四个特征值的模都小于1,且1不是A 的特征值。所以,无

法利用特征值1对应的特征向量对网页进行排名。

(2)存在无法确定排名的情况. 考察由图7.3所示的小型网络

图7.3

该网络由两个互不相连的子网络构成,其对应的链接矩阵A 为:

00000101002A=1

10002000010

1

0?? ? ? ? ? ? ? ? ???

利用MATLAB 计算可得这个矩阵有1和-1两个二重特征根,还有一个单重特征根0,特征根1对应的两个线性无关的归一化特征向量为:

()1x 0000505T ,,,.,.=,()2x 0050500T

,.,.,,=。

显然,利用上述特征向量无法对网页进行排名.

Ⅱ. 改进的PageRank 算法

只要对(7.2)式稍作改动,就可以解决由于网页重要性相等而无法确定排名的问题。

令n 表示网络中包含的网页数,p 称为加权因子其取值在0和1之间。则网页k 的重要性可以由下式给出:

()1

1k

j

k j L j x x p p n n

∈=+-∑

(7.4) 1

2

3

4

5

上式亦可以用如下形式的矩阵方程来表示:

()x Ax+1p p s =- (7.5)

其中s 是一个元素全为n

1

的列向量. 若规定

1

1n

i i x ==∑并记S 是一个元素全为n

1的

n 阶方阵,则由Sx s =可得:

()x A+1S x=Mx p p =?-??? (7.6)

关于矩阵方程(7.6),可以证明:若A 是列随机矩阵,则M 亦是列随机矩阵.在

1

1n

i

i x

==∑的约束条件下,

上述方程有唯一解. 其解为矩阵M 特征根1所对应的归一化特征向量. 这样我们就可以解决这类网络的网页排名问题。 回到图7.3所示的小型网络,n =5,p =0.85,利用MATLAB :

p=0.85;

A=[0 0 0 0 0;0.5 0 1 0 0;0.5 1 0 0 0;0 0 0 0 1;0 0 0 1 0]; S=ones(5,5)/5; M=p*A+(1-p)*S; [V,D]=eig(M); diag(D)

可以得到M 的最大正特征根为1,进而可得其对应的归一化特征向量为

T x )2000.0,2000.0,2850.0,2850.0,0300.0(=,

利用该特征向量就可以对不同子网络中的网页进行排名. 其对应的网页排名为:

12345x x x x x >=>=.

若矩阵A 中存在某列全为0,即存在j,a ij =0,任意i ,则规定矩阵M 对应该列的元素均为1/n ,这样,M 就仍然是列随机矩阵。

以图7.2所示的小型网络为例,4=n ,通常取p =0.85,那么用MATLAB ,易得

0.0375

0.03750.25000.46250.32080.03750.25000.0375M 0.32080.46250.25000.46250.3208

0.46250.2500

0.0375??

?

?

= ?

???

(7.7)

而M 的模最大的正特征值为1,对应的归一化特征向量为

(0.2192,0.1752,0.3558,0.2497)T =x

这样我们得到

3412x x x x >>>.

Ⅲ. PageRank 算法-幂法

值得注意的是,前面的作为例子的小型网络的规模微小,用数学软件直接求解矩阵方程x =Ax 或求A 的特征根和特征向量都无困难. 当问题的规模很大,甚至A 的阶数可能达到上万甚至上亿时,就必须寻找合适的数值计算方法. 下面我们介绍用于计算矩阵特征值的幂迭代算法。

假设矩阵A 的特征值满足条件123n λλλλ>≥≥≥ ,其中1λ是特征方程的实根,相应的特征向量1v 可以取成实向量,对于任意给定的非零初始向量

0x ,迭代格式

1-=k k Ax x (7.8)

称为计算矩阵特征值的幂法. 假设A 有n 个线性无关的特征向量i v ),,2,1(n i =,则初值0x 可以用它们线性表示,即

0x i n

i i v ∑==1

α (7.9)

从而幂法的迭代由下式给出

0221x A x A Ax x k k k k ====--

))((2

1

111

1

∑∑==+==n

i i i k i k n i i i k

i

v v v αλλαλαλ (7.10)

若对所有的1i >,均有

11

<λλi

. 所以只要10α≠,当k 足够大时,由(7.9)式可得 k x 111v αλk

≈ , (7.11) 1+k x 111

1v αλ+≈k (7.12)

即有

k k x x 11λ≈+ (7.13)

而k k Ax x =+1,故有

k k x Ax 1λ≈ (7.14)

这意味着,k x 最终会趋于1v . 但是,直接采用幂法往往会导致迭代序列趋向于无

穷大(而1λ的绝对值小于1时则会趋于零).故在每次迭代是应当对k x 进行归一化处理,所以上述算法可以改写为

1-=k k Ax y (7.15)

k k

k y y x =, 其中∑==n

j kj k y 1

y (7.16) 例如再次考察图7.2所示的小型网络,相应的矩阵M 如(7.7)式所示.那么给定初始向量T )1,0,0,0(0=x ,利用MATLAB 编程:

M=[0.0375,0.0375,0.0375,0.4625;0.32083,0.0375,0.0375,0.

0375;0.32083,0.4625,0.0375,0.4625;0.32083,0.4625,0.0375,0.0375];

x(:,1)=[0,0,0,1]'; y(:,1)=[0,0,0,1]'; for k=2:20

y(:,k)=M*x(:,k-1);

x(:,k)=y(:,k)/norm(y(:,k),1); end

经计算得到幂法的迭代20次的序列如下: 表7.1 k

k x

k

k x

0 )0000.1,0000.0,0000.0,0000

.0( 7 )2422.0,3957.0,1517.0,2104.0( 1 )0375.0,4625.0,0375.0,4625

.0( 10 )2426.0,3977.0,1480.0,2117.0( 2 )3040.0,3302.0,2777.0,0881

.0( 13 )2423.0,3980.0,1473.0,2124.0( 3 )2509.0,4305.0,0868.0,2317

.0( 15 )2423.0,3979.0,1476.0,2123.0( 4 )2209.0,3891.0,1627.0,2273

.0( 16 )2423.0,3979.0,1475.0,2123.0( 5 )2556.0,3959.0,1523.0,1963

.0( 17 )2423.0,3979.0,1475.0,2123.0(

(后两次的迭代结果完全相同,故未列出),从上表中可以看到,经过不足20步迭代,就可以得到与前面方法同样的排名结论.

注意在网页数量很大时,迭代运算需要更多有效数字,迭代次数一般也会更多,才能使得归一化特征向量的各分量有序从而确定网页排名.

六、实验任务

1. 在改进的PageRank 算法讨论图7.2所示的小型网络时,我们取p =0.85,请依次改取p =0.75,p =0.8或p =0.9,然后观察网页排名结果的变化情况.

建立m 文件:

function m7_1(p)

A=[0 0 0 1/2;1/3 0 0 0;1/3 1/2 0 1/2;1/3 1/2 0 0]; s=ones(4,4)/4; M=p*A+(1-p)*s; [V,D]=eig(M); diag(D)

(abs(V(:,1))/norm(V(:,1),1))' 取p=0.85时运行结果为: m7_1(0.85) ans =

0.6618 -0.2427 + 0.2257i -0.2427 - 0.2257i -0.0264 ans =

0.2123 0.1475 0.3979 0.2423 所以网页排名为: x x x x 2

1

4

3

>>>

取p=0.75时运行结果为: m7_1(0.75) ans =

0.7184 -0.2166 + 0.1999i -0.2166 - 0.1999i -0.0352 ans =

0.2158 0.1621 0.3755 0.2467 取p=0.8时运行结果为: m7_1(0.8)

ans =

0.6909 -0.2297 + 0.2128i -0.2297 - 0.2128i -0.0315 ans =

0.2140 0.1550 0.3863 0.2447 取p=0.9时运行结果为: m7_1(0.9) ans =

0.6307 -0.2555 + 0.2385i -0.2555 - 0.2385i -0.0197 ans =

0.2105 0.1398 0.4103 0.2395

由上面当p 取0.85;0.75;0.8;0.9时得到的网页排名任然为:

x x x x 2

1

4

3

>>>

2. 计算图7.4所示小型网络的排名,分析其排名与图7.2所示小型网络排名发生变化的原因.

图7.4

图7.4的衔接矩阵为

1

3

2 4

x=[0 0 1 1/2;1/3 0 0 0 ;1/3 1/2 0 1/2;1/3 1/2 0 0] x =

0 0 1.0000 0.5000 0.3333 0 0 0 0.3333 0.5000 0 0.5000 0.3333 0.5000 0 0

使用MATLAB 建立m 文件有助于分析其网页排名,m 文件如下:

function m7_2(p)

A=[0 0 1 1/2;1/3 0 0 0;1/3 1/2 0 1/2;1/3 1/2 0 0]; s=ones(4,4)/4; M=p*A+(1-p)*s; [V,D]=eig(M); diag(D)

(abs(V(:,1))/norm(V(:,1),1))' 取p=0.85,运行得到结果为: m7_2(0.85) ans =

1.0000 -0.3065 + 0.3493i -0.3065 - 0.3493i -0.2369 ans =

0.3682 0.1418 0.2880 0.2021 所以网页排名为:

x x x x 2

4

3

1

>>>

3. 利用幂法计算图7.5 所示网络的排名.

图7.5

图7.5的衔接矩阵为:

???

?

??

?

????

?

??

?

?

?

?02/1000

00000003/10000000

0002/100000000000003/100

2/10000103/10002/13/1000102/1000000003/100

000000002/12/1003/1000000

2/12/10

02/1000000

利用MATLAB 建立m 文件:

function m7_3(p)

A=[0 0 0 0 0 0 1/2 0 0 1/2;1/2 0 0 0 0 0 0 1/3 0 0;1/2 1/2 0 0 0 0 0 0 0 0;

0 0 1/3 0 0 0 0 0 0 0;0 1/2 0 1 0 0 0 1/3 1/2 0;0 0 1/3 0 1 0 0 0 0 1/2; 0 0 1/3 0 0 0 0 0 0 0;0 0 0 0 0 0 1/2 0 0 0;0 0 0 0 0 0 0 1/3 0 0; 0 0 0 0 0 0 0 0 1/2 0;];

S=ones(10,10)/10; M=p*A+(1-p)*S;

x(:,1)=[0 0 0 0 0 0 0 0 0 1]'; y(:,1)=[0 0 0 0 0 0 0 0 0 1]'; for k=2:35

y(:,k)=M*x(:,k-1);

1

3

2

4 10

7

8 5

6

9

x(:,k)=y(:,k)/norm(y(:,k),1);

end

x'

运行m7_3(0.85)得到结果:

m7_3(0.85)

ans =

0 0 0 0 0 0 0 0 0 1.0000

0.4400 0.0150 0.0150 0.0150 0.0150 0.4400 0.0150 0.0150 0.0150 0.0150

0.0443 0.3295 0.3329 0.0308 0.0715 0.0613 0.0308 0.0341 0.0308 0.0341

0.0449 0.0459 0.1834 0.1153 0.2151 0.1947 0.1153 0.0296 0.0260 0.0296

0.0918 0.0509 0.0642 0.0803 0.1821 0.3145 0.0803 0.0767 0.0280 0.0312

0.0851 0.1034 0.1032 0.0453 0.1890 0.2747 0.0453 0.0670 0.0501 0.0367

0.0651 0.0916 0.1241 0.0577 0.1797 0.2877 0.0577 0.0447 0.0443 0.0474

0.0790 0.0732 0.1080 0.0664 0.1780 0.2952 0.0664 0.0523 0.0366 0.0448

0.0831 0.0846 0.1064 0.0609 0.1775 0.2883 0.0609 0.0577 0.0398 0.0408

0.0771 0.0883 0.1143 0.0598 0.1801 0.2826 0.0598 0.0541 0.0415 0.0423

0.0768 0.0831 0.1123 0.0624 0.1795 0.2875 0.0624 0.0532 0.0399 0.0430

0.0791 0.0830 0.1098 0.0620 0.1791 0.2880 0.0620 0.0549 0.0398 0.0423

0.0785 0.0850 0.1111 0.0611 0.1793 0.2865 0.0611 0.0547 0.0405 0.0423

0.0779 0.0844 0.1117 0.0614 0.1794 0.2867 0.0614 0.0541 0.0403 0.0426

0.0783 0.0839 0.1110 0.0617 0.1793 0.2872 0.0617 0.0544 0.0401 0.0425

0.0784 0.0842 0.1110 0.0615 0.1793 0.2870 0.0615 0.0545 0.0402 0.0424

0.0782 0.0844 0.1113 0.0614 0.1793 0.2868 0.0614 0.0544 0.0403 0.0424

0.0782 0.0842 0.1112 0.0615 0.1793 0.2870 0.0615 0.0544 0.0402 0.0425

0.0783 0.0842 0.1111 0.0615 0.1793 0.2870 0.0615 0.0544 0.0402 0.0424

0.0783 0.0842 0.1112 0.0615 0.1793 0.2869 0.0615 0.0544 0.0402 0.0424

0.0783 0.0842 0.1112 0.0615 0.1793 0.2869 0.0615 0.0544 0.0402 0.0425

0.0783 0.0842 0.1112 0.0615 0.1793 0.2870 0.0615 0.0544 0.0402 0.0425

0.0783 0.0842 0.1112 0.0615 0.1793 0.2869 0.0615 0.0544 0.0402 0.0424

0.0783 0.0842 0.1112 0.0615 0.1793 0.2869 0.0615 0.0544 0.0402 0.0424

0.0783 0.0842 0.1112 0.0615 0.1793 0.2869 0.0615 0.0544 0.0402 0.0425

0.0783 0.0842 0.1112 0.0615 0.1793 0.2869 0.0615 0.0544 0.0402 0.0424

0.0783 0.0842 0.1112 0.0615 0.1793 0.2869 0.0615 0.0544 0.0402 0.0424

0.0783 0.0842 0.1112 0.0615 0.1793 0.2869 0.0615 0.0544 0.0402 0.0425

0.0783 0.0842 0.1112 0.0615 0.1793 0.2869 0.0615 0.0544 0.0402 0.0424

0.0783 0.0842 0.1112 0.0615 0.1793 0.2869 0.0615 0.0544 0.0402 0.0424

0.0783 0.0842 0.1112 0.0615 0.1793 0.2869 0.0615 0.0544 0.0402 0.0424

0.0783 0.0842 0.1112 0.0615 0.1793 0.2869 0.0615 0.0544 0.0402 0.0424

0.0783 0.0842 0.1112 0.0615 0.1793 0.2869 0.0615 0.0544 0.0402 0.0424

0.0783 0.0842 0.1112 0.0615 0.1793 0.2869 0.0615 0.0544 0.0402 0.0424

0.0783 0.0842 0.1112 0.0615 0.1793 0.2869 0.0615 0.0544 0.0402 0.0424

由上述结果可以得到网页排名为:

x x

x x x x x x x x 910

8

7

4

1

2

3

5

6

>>>=>>>>>

总结:

通过对这个实验的学习让我能更好的用MATLAB 进行矩阵运算,和认识到计算矩阵特征值的幂迭代法。在学习的过程中老师教会我如何通过有向图求解衔接矩阵,知道了关于矩阵的一系列算法。

还有我明白了我们通常上网搜索的结果是通过什么原理出现的,以前以为排在前面的网页就是最精准的搜索结果,然而通过对本实验的学习知道事实并非这样。

通过这个实验可以解决犹如有向图一样的实际问题,比如食物链问题,每个生物在食物链中都存在作用,需要我们考察那种生物更重要一点,通过有向图找出衔接矩阵,用MATLAB 实现,就可以知道那种生物更重要。

搜索引擎-第二次实验报告

实验二:实验 一、实验目的: 根据网络爬虫的基本原理,实现一个简易网络爬虫,需要达到以下指标: 1、种子URL为https://www.wendangku.net/doc/ed2558835.html,; 2、至少抓取10000个页面; 3、至少完成3轮抓取,每轮给出更新的URL及其数量; 4、实现URL判重,列出每轮爬去时重复的URL数量; 5、数据存放到数据库中,能抽取出网页中的标题、页面生成日期(http协议中的时间),至少包含标题、时间、url、抓取时间、网页正文这几个字段。 二、实验方案: 1.爬虫分析与设计 我们组应用的是java来写爬虫,我们应用SSM框架将数据库和应用程序连接起来,可以在程序中更简单的进行数据库插入、查询等操作。 在对url处理的时候我们用的是Java的URL类,通过这个类可以获得请 求头的一些信息,例如编码方式。 如何获取url,我们一开始遇到了一些问题,直接解析网页中的ref 标签的时候得到的不全是网页链接,所以转换思路,我们先得到页面中 的标签,然后再得到标签里边href中的url,然后再对url进行处 理。 在处理url的时候,因为网页中的url并不是全部以http开头的,所以在url获取部分,对url的格式进行判断,如果通常格式就进行修改,例如,有的链接是”#”,我们就把开始搜索的url加到它的前边,形成一 个正确的url。

图1:应用URL类获取网页内容 图2:利用url请求头获取编码信息 图3:获取a标签

图4-1:获取url 图4-2:获取url

图5:url判重 2.数据库分析与设计 我们设计了两个表,一个是未爬取url表,两一个是已经爬取url表。 未爬取的表中村的是搜索判重之后,还没有爬取的url,已爬取的存储爬取到的信息。 图6:判重后需要爬取的url表 图7:爬取后url信息存储表

实验五搜索引擎使用实验

实验五搜索引擎使用实验一、实验目的 1.了解搜索引擎的发展情况和现状;理解搜索引擎的工作原理;2.了解中英文搜索引擎的基本知识和种类; 3. 掌握中英文搜索引擎的初级检索与高级检索两种方式; 4. 分析和对比各种中英文搜索引擎的共性与区别; 5. 了解网络促销的主要方式二、实验内容: 1. 找网上的中英文搜索引擎,并列出5个中文搜索引擎和5个英文搜索引擎的名称; 2.掌握google、百度中高级搜索语法应用方法。 3. 用3个中文、2个英文搜索引擎对同一主题\同一检索词(关键词)进行检索,从检索效果分析得到的检索结果,并比较分析你所选择的搜索引擎的共性与区别。 4.了解网络促销的应用方式和网络广告促销的特点三、实验步骤 1. 搜索引擎的关键词检索(1)进入Google,熟悉并掌握以下功能:掌握Google 的网站检索功能,选取一些关键词在主页上使用“所有网页”检索网页,并通过使用运算符提高查准率;同时使用“高级检索”功能;掌握Google的图像检索功能;掌握Google的网上论坛功能;掌握Google的主题分类检索功能。(2)进入百度,熟悉并掌握Baidu各功能。搜索到至少两个专利介绍网站,并搜索一条关于手机防盗产品的专利技术,写出检索步骤并截图。 2. 搜索引擎的高级搜索语法应用(百度或谷歌) 3.浏览不同类型的网络广告。四、实验报告 1.进入Google,

搜索关键词“搜索引擎优化”,要求结果格式为Word格式;搜索关键词“电子商务”,但结果中不要出现“网络营销”字样;分别写出检索步骤并截图。 2. 精确匹配——双引号和书名号,分别加和不加双引号搜索“山东财经大学”,查看搜索结果。分别加和不加书名号搜索“围城”,查看搜索结果。 3. 搜索同时包含“山东财经大学”和“会计学院”的网页,并查看数量。 4.利用百度搜索两个专利介绍网站,并搜索一条关于手机防盗产品的专利技术,写出检索步骤并截图。 5.选择使用Google和百度,查询某商务信息(自定,如“海尔2012年销售额” )。要求写出:搜索引擎的名称、检索信息的主题、检索结果(列出前5个)。6.分析实验中所使用搜索引擎的优缺点。 7.比较说明中国和美国的网络广告发展情况。五.实验操作答案 1.(1)可以直接搜索word版的搜索引擎优化即可。如下图 (2)操作和上面差不多,看下图 2.不加引号搜索“山东财经大学”时,没有结果;而加引号时则有许多搜索结果。但是加不加引号搜索“围城”时,结果却是相同的。 3.大多为关于山东财经大学的信息,而会计学院则是属于山财的分支。 4. 1.进入

搜索引擎营销实验报告

搜索引擎营销实验报告 实验概述: 【实验目的及要求】了解关于搜索引擎的基本知识以及与其实际应用的搜索引擎广告营销与当前各网站的网站策略。 【实验原理】通过网上实际操作与搜索加强学生对现实搜索引擎营销情况的了解 【实验环境】各主要搜索引擎 实验内容: 【实验方案设计】通过对各搜索引擎的使用体验来增强学生关于搜索引擎营销的基本知识与各引擎广告策略的不同之处 【实验过程】 实验一:了解常见的搜索引擎和类别的基本形式 1.全文搜索引擎和目录索引引擎的区别是什么? 下表由几个角度比较了全文搜索引擎与目录索引的不同点: 实验二:了解百度的广告策略 1.竞价排名的含义 竞价排名的基本特点是按点击付费,推广信息出现在搜索结果中(一般是靠前的位置),如果没有被用户点击,则不收取推广费。 2.对“鲜花”查询竞价 竞价排名显示:

经查询显示排在第一位的是一家名叫“精品鲜花”的门户网站。 自然排名显示: 3.思考讨论:百度的广告策略如何策划的。谈谈你的看法。 百度是通过竞价排名来实现广告策划的。从企业的角度来说,企业可以根据自己的财务预算来进行广告竞价投放。从百度的角度来说,能以量化的形式衡量各搜索结果的排序而获得盈利。而从顾客的角度来说,可能从排名中意外地获得一些所需的信息。 通过平时对百度搜索引擎的使用,其广告策略基本合理。 实验三:对比搜索引擎收录情况 1.对比各搜索引擎关键字的搜索情况 2.搜索西安到三原的距离 对“百度”与“谷歌”进行“西安到三原的距离”关键字搜索后,第一条出现的便是“西安到三原自驾车路线, 距离三原县公路里程44.8千米”成功地搜出两地距离。而“雅虎”搜索得手工从“雅虎地图”中搜出两地距离。 3. 各个搜索引擎对同类网站的收录情况是否相同?如果不相同,各个搜索引擎有什么特点? 各个搜索引擎对同类网站的收录情况不尽相同。百度与谷歌属于全文引擎搜索,其网页数据库的更新速度也不相同,但收录网页数与更新的速度是谷歌比百度更快,内容更丰富。而雅虎属于目录索引搜索引擎,其网站专业分类性较强,虽然信息收藏量比全文搜索引擎要少,但是其针对性更强,找到的信息会更细致。

网站SEO分析诊断报告实例

SEO分析报告实例 .zjzja. 一、当前状况 1.IP : 96.46.4.61 2.IP下域名: a.***. b.***. 3.页面收录: a.百度:1,240,000 页面 b.Google:711,000页面 4 PR值:0 5. Alexa排名:2,542 主要的二级域名: product.***. web.***. ***. img2.***. mobile.***. nb.***. cpu.***. bbs.***. lcd.***. mb.***. dc.***. vga.***. diy.***. doc.***. 二、当前存在的问题及改进意见。 1.两个域名指向,未进行重定向,分散了外部得分。

使用搜狗查询工具: .sogou./web?query=link%3Awww.***.&pid=58009401 结果: .***. 10,145 个网页 .***.390,510 个网页 由于有两个域名,导致搜索引擎在计算外部得分时,将分数分散到2个,没有获得统一的得分。解决案: 1.对外宣传时以一个网址为准,也容易让用户记住你的主域名。 例如:google, 如果用户输入.gogle. ,直接跳转到.google.页面。下次用户就不会再输入错误。 2.对现有的域名进行跳转。 a.在IIS 进行操作:将.***.重定向到.***. . 特别注意:一定要选择此资源的永久重定向。 b.使用命令式重定向: https://www.wendangku.net/doc/ed2558835.html, Response.Status = "301 Moved Permanently"; Response.AddHeader("Location","http://.***./); 上述法告诉搜索引擎,.***.是.***.的另外一个域名,.***. 的所有外链得分都算

SEO实训报告

实训报告(2014 -2015学年度第一学期) 项目名称:《搜索引擎优化与营销》 指导教师: 实训类型: 学生姓名: 学生学号: 班级: 实训时间:2014年12月8日—12日实训地点:电子商务实训室 实训作品:目标网站搜索引擎优化建议 信息管理系监制

文轩网网站SEO优化方案 一、实训项目介绍 文轩在线是新华文轩出版传媒股份有限公司(简称"新华文轩")的控股子公司。新华文轩是我国第一家按照上市公司标准组建的股份制出版发行企业。2007年,在香港联合交易所主板(H股)上市,成为国内首家在港上市的出版发行企业。文轩网作为新华文轩推出的电子商务品牌,现已成为文轩自零售、中盘、定制之后的第四销售渠道。文轩网已拥有注册会员四百万余;常备图书品种超过70万种;开辟了包括淘宝、拍拍、新浪、乐酷天等国内外知名网站在内的多家网络连锁渠道;连续3年销售规模增长率逾200%。目前,文轩网月独立IP访问过千万,月均点击率超过10亿次,是国内少数几家网上零售规模上亿的企业之一。 二、任务内容 1、准备工作 ①团队建设

2、项目要求 一选择目标分析网站,确定竞争对手 二对强劲竞争对手的网站结构和页面优化分析 三目标网站关键词的研究 四目标网站的优化建议 3、项目规划 经过组员毛遂自荐,和对自己能力分析做出如下规划

4、项目实施过程 一.选择目标分析网站,确定竞争对手 <1>目标网站信息 通过百度搜索新华书店查找到文轩网这个网站。基于从小去新华书店买图书,决定对这个网站进行分析。 ①目标网站的基本信息

<2>竞争对手分析 通过对各种搜索引擎进行交叉比对。查找出文轩网做大需要面对的5个竞争对手 ①竞争对手网站 ②竞争对手网站基本信息

企业网站搜索引擎友好性分析实验报告

企业网站搜索引擎友好性分析实验报告 1.实验目的 了解搜索引擎营销对网络营销信息传递的作用,通过对部分选定网站搜索引擎进行友好性分析,深入研究网站建设的专业性对搜索引擎营销的影响,对于发现的问题,提出相应的改进建议。 2.实验内容和步骤 (1)从备选网站中选定一个企业网站; (2)浏览该网站并确认该网站最相关的2-3个核心关键词(比如主要产品名称、所在行业等); (3)用每个关键词分别在搜索引擎google和百度进行检索,了解该网站在搜索结果中的表现,如排名、网页标题和摘要信息内容等,同时记录 同一关键词检索结果中与被选企业同行的其他竞争者的排名和摘要信息情况; (4)根据有关信息分析被调查网站的搜索引擎友好性。 本实验备选网站网址 https://www.wendangku.net/doc/ed2558835.html, https://www.wendangku.net/doc/ed2558835.html, https://www.wendangku.net/doc/ed2558835.html, https://www.wendangku.net/doc/ed2558835.html, https://www.wendangku.net/doc/ed2558835.html, https://www.wendangku.net/doc/ed2558835.html, https://www.wendangku.net/doc/ed2558835.html, https://www.wendangku.net/doc/ed2558835.html, https://www.wendangku.net/doc/ed2558835.html, https://www.wendangku.net/doc/ed2558835.html, 3.实验报告 本次实验所选的网站是娃哈哈集团的https://www.wendangku.net/doc/ed2558835.html,,并以GOOGLE,百度两个搜索引擎进行搜索。 杭州娃哈哈集团有限公司为中国最大的食品饮料生产企业,全球第五大饮料生产企业,仅次于可口可乐、百事可乐、吉百利、柯特这4家跨国公司主要生产含乳饮料、瓶装水、碳酸饮料、茶饮料、果汁饮料、罐头食品、医药保健品、休闲食品等八大类60多个品种的产品,其中瓶装水、含乳饮料、八宝粥罐头多年来产销量一直位居全国第一。进入该公司网页首先出现醒目的“娃哈哈”三个字,背景是传统的鮮紅色,配以简单的关键词和动态的产品图片介紹。通过浏览其网站后我觉得应该选用“饮料业”“饮用水”“乳品”作用核心关键词进行研究分析。 一,在GOOGLE搜索。

搜索引擎营销实训报告Violet

`` 评 语 Comment 教师签字 日期 Signature of Tutor______________Date:_______ 成绩 Score 学时 Time 2学时 小组名称 No. Violet 58.56.41.36 项目名称 Item 搜索引擎营销实训 课程名称 Course 网络营销实务 教材 Textbook 网络营销教程 1、举例说明(百度、GOOGLE 、搜狐任选其一)利用搜索引擎开展关键字推广的基本步骤; 2、结合小组企业查找利用搜索引擎开展营销推广的 案例1个。 3、上网搜索利用搜索引擎做推广有哪些基本技巧 4、将小组公司网站到搜索引擎注册登记,截图; 5、上网观看搜索引擎营销视频,写出观感体会 6、到百度推广虚拟体验中心,体会百度推广过程 以1~5上以小组为单位完成实训报告,下课前交,第6题每人都做 。 1、 举例说明(百度、GOOGLE 、搜狐任选其一)利用搜索引擎开展关键字 推广的基本步骤; 第一步:将网站提交到百度。 第二步:到百度收录吧申请百度收录新站,留下网站名称、网站地址、及网站的简单介绍。 第三步:到百度知道提交一个与新站相关的问题,顺便带上新站的链接。 第四步:在百度百科创建一个与新站内容相关的词条,并在词条下面的相关新闻记者栏位加上新的链接。 第五步:将网站内的精彩文章推荐到天极网摘、天天网摘、POCO 网摘、和讯网摘等。 第六步:到A5、Chinaz 、门户通、落伍等知名的站长论坛或其它权重高的论坛、博客发布文章并带上网站的链接。 2、结合小组企业查找利用搜索引擎开展营销推广的 案例。 我们的公司名字:Violet 服装有限公司 Violet 以打造“魅力女神”为侧重点,让每个爱美的女性寻找最适合的,最独一无二的,最无与伦比的美。 网店标语:流行稍纵即逝,唯violet 风格永存。 网店宗旨:特别的爱,给特别的你。 以下是结合我们服装店的情况利用搜索引擎开展营销推广的 案例 案例:兰蔻——品牌、销售两不误 如若有消费者在百度搜索上敲下“兰蔻”两个字,搜索结果页面最上方不再是普通的文字链接,而是图文并茂深 圳 职 业 技 术 学 院 Shenzhen Polytechnic 项 目 实 训(验)报 告

网络营销实验报告一

工程大学 实验报告 实验名称:网络营销信息的检索与处理 班级: 2011 学号: 姓名: 实验时间: 2014.6.20 成绩:________________________________ 指导教师: 实验室名称:______综合实验三______________________ 工程大学实验室与资产管理处

实验报告 一、实验名称:网络营销信息的检索与处理 二、实验目的: 了解用户通过企业、搜索引擎、电子等常用网络营销工具获取商品/服务信息的特征,认识各网络营销工具的作用及其信息传递的特点,为接下来的实验容的顺利完成提供有力保证。 三、实验设备: 综合实验室(三)计算机设备,通过百度、谷歌、搜狗浏览器、360浏览器、腾讯搜搜等引擎,各类商品的官方企业进行信息搜集。 四、实验容: (1)从备选商品/服务名称中选择三种,假设你希望购买这种产品/服务,或者希望了解更多相关信息; 电备选商品/服务名称如下:网络营销类书籍,强化地板,5-10万元轿车,瑞士手表,热水器,实木家具 我选择瑞士手表、电热水器、网络营销类书籍作为对象进行分析。 (2)利用该关键词分别在3-5个常用搜索引擎进行检索,观察检索结果第一页的信息差异情况; (3)从检索结果中选择一个你感兴趣的网页,点击进入该; (4)对比该网页在搜索引擎检索结果中的信息,是否可以在企业上立即发现这些相关信息更为详细的容。 实验具体分为A、B、C三个实验,如下所示: A、瑞士手表实验分析 一、搜索引擎对比分析 1.百度搜索关键词——瑞士手表

点击置顶进入: 2.搜狗搜索关键词——瑞士手表

点击置顶进入: 2.雅虎搜索关键词——瑞士手表

数据压缩实验报告

实验一常见压缩软件的使用 一、实验目的 使用一些常见的压缩软件,对数据压缩的概念、分类、技术和标准形成初步的认识和理解。 二、实验要求 1.认真阅读实验指导书,按实验步骤完成实验内容。 2.实验过程中注意思考实验提出的问题,并通过实验解释这些问题。 3.通过实验达到实验目的。 三、实验环境 计算机硬件:CPU处理速度1GHz以上,内存258M以上,硬盘10G以上 软件:Windows操作系统2000或XP。 四、实验内容 1.使用WinZip或WinRAR两种压缩软件分别对文本文件(.txt,.doc)、程序源代码文件(.c)、数据文件(.dat)、二进制目标代码文件(.obj)、图像文件(.bmp)、音频文件(.wav)和视频文件(.avi,.wmv)进行压缩,分别计算出压缩率,判断这两种压缩软件采用的是可逆压缩还是不可以压缩,猜测其可能用到了那些压缩(编码)技术? 2.使用jpegimager、TAK和BADAK分别进行图像、音频和视频的压缩,体验其压缩效果。3.使用bcl程序对文本文件、程序源代码文件、数据文件、二进制目标代码文件、图像文件等进行多种统计编码技术的压缩,包括香农-费诺(shannon-fano)编码、霍夫曼(huffman)编码、游程编码rle、字典编码lz等,记录每种压缩方法对不同类型文件的压缩效果并进行比较,结合所学知识,解释其中的原因。 五、实验步骤 1、下载并打开WinZip和WinRAR两种压缩软件 2、分别新建两个文档:qqjj.winzip 和winrar。添加所要压缩的文件:文本文件(.txt,.doc)、程序源代码文件(.c)、数据文件(.dat)、二进制目标代码文件(.obj)、图像文件(.bmp)、音频文件(.wav)和视频文件(.avi,.wmv)进行压缩,如图所示:

中文数据库的检索实验报告

实验报告 课程名称计算机信息检索 实验项目名称 班级与班级代码 实验室名称(或课室) 专业 任课教师 学号: 姓名: 实验日期:

姓名实验报告成绩 评语: 指导教师(签名) 年月日说明:指导教师评分后,学年论文交院(系)办公室保存。

实验一 一、实验目的 掌握常见中文数据库的检索方式。利用所学理论知识,结合实验分析不同数据库在信息组织、检索分式等方面的特点。 二、实验内容: 用一专题在六个中文数据库、检索结果主要也目录和摘要为主。 检索专题自选。 1、中国期刊网 2、维普中文科技期刊数据库 3、万方数据资源系统 4、国研网 5、中宏数据库 6、人大复印资料 7、高校财经数据库 三、实验环境 CPU:Intel(R) core?2 CPU 内存:1G 软件:IE 资源:互联网 四、实验步骤 1.进入广东商学院图书馆网页,点击数字资源,进入中国期刊数据库。 2. 根据自己检索课题的要求,采用分类检索与主题检索在加上 3.鉴于以上检索的结果记录数较多,而且与需求的相关性低,采用以下缩减手段:

(1)在检索导航中更改默认分类:只选择“经济与管理”类 (2)更改更新时间(2005~2009),得到结果; (3)把模糊匹配改为精确匹配得到结果; 4. 通过亲自查看其摘要,全文的方式,剔除一些不相关的文献,并归纳出剔除文章的原则。 5. 将最后的所得的与主题密切相关的文献题录信息拷贝下来,保存在作业文件夹中。并在实验报告中体现出来。 6. 把最后所得的期刊论文的全文都一一拷贝下来。保存在自己的移动硬盘中。作为后期撰写文献综述的依据之一。 7. 登陆到学校的重庆维普数据库、人大报刊索引全文数据库,万方全文数据库期刊、国研网子系统,重复2,3,4,5,6,将所得检索结果拷贝下来,放在作业文件夹 五、试验结果 实验步骤3(2)(3)的结果如下,其它数据库结果类似 六、实验分析 期刊网的主页上免费的资源有:学术研究、工具书检索、党和国家大事、文化与生活、学习教育、行业知识仓库等,在相应领域的信息检索中起着重要作用。

搜索引擎推广手段应用现状调查报告

搜索引擎推广手段应用现状调查报告 班级:B09工商管理(3)班 姓名:吕胜聪 学号:07

搜索引擎推广手段应用现状调查报告 1调查题目:搜索引擎推广手段应用现状调查报告 2调查员:吕胜聪 3调查日期:2012年6月13日-2012年6年20日 4调查方式:网络调查 5调查结果总结 1搜索引擎的简介 搜索引擎推广是指利用搜索引擎、分类目录等具有在线检索信息功能的网络工具进行网站推广的方法。由于搜索引擎的基本形式可以分为网络蜘蛛型搜索引擎(简称搜索引擎)和基于人工分类目录的搜索引擎(简称分类目录),因此搜索引擎推广的形式也相应地有基于搜索引擎的方法和基于分类目录的方法,前者包括搜索引擎优化、关键词广告、竞价排名、固定排名、基于内容定位的广告等多种形式,而后者则主要是在分类目录合适的类别中进行网站登录。随着搜索引擎形式的进一步发展变化,也出现了其他一些形式的搜索引擎,不过大都是以这两种形式为基础。 2 搜索引擎的推广手段 搜索引擎推广的方法又可以分为多种不同的形式,常见的有:登录免费分类目录、登录付费分类目录、搜索引擎优化、关键词广告、关键词竞价排名、网页内容定位广告等。 2.1首先我讲解下本站主要提供的服务, 也就是搜索引擎推广法中的搜索引擎优化环节,在网站推广中,搜索引擎优化是非常重要必不可少的一种推广方式,他是我们专业的SEOER通过网站优化,将网站打造成搜索引擎所喜欢的站点类型,并且辅助其他的一些方法,达到在搜索引擎左侧搜索结果获得高排名的一种方法,搜索引擎优化将最大限度的节约企业的推广资金,并且所获得的效果是搜索引擎推广其他的任何方式都无法比拟,它具有竞价排名推广方式的所有优点,并且也不足了竞价排名的一些不足,例如恶意点击等无法避免的遗憾,唯一的缺点是无法速成,从优化到见效需要3个多月的时间。

网络营销上机实验报告

实验一 实验日期:星期四56 第1次实验 实验名称:企业网站专业性诊断评价 实验目的:加深对网络营销导向的企业网站的认识,利用所学知识对对网站专业性进行分析评价,记录评价过程中发现的主要问题,并提出相应的改进建议。 实验内容:企业网站专业性诊断评价 实验步骤: 我选择对杉杉的企业网站进行网页诊断和分析郑永刚领军的杉杉投资控股(集团)有限公司(下简称杉杉控股),是以资本为纽带的大型企业集群。杉杉控股2008年销售额达116亿,资产总额超过100亿,产业涉及时尚产业、新能源新材料、投资、园区开发、国际贸易五大板块,旗下拥有杉杉股份和中科英华两家上市公司。2002年以来杉杉控股连续入选中国企业500强。2009年杉杉集团与伊藤忠商社实现全面合资合作,双方在管理、品牌、技术、国际化等多方面展开紧密对接,杉杉进入一个新的发展时期。 我觉得该网站的优点有: 1、首先该网站下载速度还比较快,我在10秒内打开了该企业网站。 2、通过最多3次点击,可以通过首页到达任何一个页面内容 这是第一个页面(首页)

这是第二个页面 这是第三个页面

还可以通过任何一个页面到达站内的其他任何网站,比如,我现在所在的页面是一个三级页面,可以到达其他任何一个页面。如下图。 3、公司介绍还比较详细,有企业的具体联系方式。

4、网站可以稳定运行,访问速度挺快。这从我诊断该网站的过程中可以了解到。 5、为用户提供站内搜索、多种语言等在线服务手段。

6、用户关心的信息可以在网站首页直接找到。 我觉得该网站的缺点有: 1、网站首页、各栏目首页以及各个内容页面没有能反映网页核心内容的网页标题,整个网站几乎都用一个网页标题,各网页标题几乎都是“杉杉控股”,除了一级栏目“校园招聘”下的网页标题是“[杉杉投资2011校园招聘]杉杉投资前程无忧官方校园招聘网”外。

搜索引擎优化实验报告

实验 成绩 实验评阅教师签名 简 要 评 语 华北科技学院管理系 实验报告册 20 实验课程名称: 网上创业 实验项目序号: 实验六 实验项目名称: 搜索引擎优化 实验室名称: 电子商务实验室 开课学 期: 2011 ——2012 学年第 1 学期 授 课 教 师: 白宏斌 实验指导教师: 白宏斌 专 业: 电子商务专业 班 级: B09-3 姓 名: 巩伟 学 号: 200904064327

实验报告实验时间: 2011 年12月20 日

关键词:新闻 凤凰网 凤凰网是一个集图文资讯、视频点播、专题报道、虚拟社区、免费资源、电子商务为一体的Internet 站点;网站设有专栏,介绍凤凰卫视中文台、资讯台、电影台、欧洲台、美洲台和《凤凰周刊》。凤凰网秉承“开创新视野,创造新文化”之精神,凤凰展翅之理想,始终坚持以先进科技配合卓越服务,根据每一位用户和客户的需求制定个性化的服务程式,务求协助用户和客户准确达成目标,创造辉煌成绩。 凤凰网是一个集图文资讯、视频点播、专题报道、虚拟社区、免费资源、电子商务为一体的Internet站点;网站设有专栏,介绍凤凰卫视中文台、资讯台、电影台、欧洲台、美洲台和《凤凰周刊》。 一、标志 凤凰LOGO由两只凤凰构成一个圆,中间是一只注视着世界的眼睛。颜色的基调是象征高贵、雍荣的黄色,黄色之中,又有热烈、耀眼的红色,这两种颜色是中国人最喜欢的。 1、一凤一凰两只鸟,盘旋飞舞、和谐互动的共容在一个圆内。寓意凤凰的起源、成形;凤凰台的东方特色;凤凰台是东西传媒合作的产物。 2、两只鸟头朝里,尾朝外呈弧形打开,所有的口都是开放的。寓意在中国传统的、封闭的意识形态中找到出口;开门办台,欢迎合作,迎接挑战,吸收各种先进经验和优秀文化;发挥传媒影响力,以开放姿态融入世界,让世界了解中国。 3、与中国道教的太极图有形似意同之妙。寓意阴阳的彼此对立又相互消长,阴阳是宇宙运行之道,是万物之和,世界之和。 4、中国解释历史的方式是盛衰分合带有轮转的性质,西方的历史观以直线前进的观点为基础。凤凰LOGO将二者结合为螺旋式前进。团凤构成的圆又是像一个地球,寓意凤凰将把影响力扩大到全世界。 凤凰网是凤凰新媒体旗下的一个图文音、视频综合资讯网站,提供国际、中国大陆及港、澳、台地区的时政、社会、财经、娱乐、时尚、生活等综合新闻信息;以博客、论坛、辩论、调查等Web 2.0应用为用户提供互动与共动交流空间;以RSS、TAG、点播、轮播、个人节目表等可订制的多媒体服务满足用户的个性化信息需求。 二、资讯中心 资讯频道 凤凰资讯,真实、多维、高远,立足大中华、聚焦两岸三地、放眼全世界,为你提供与国内媒体不尽相同的资讯大餐。高度、角度、尺度、深度、热度、速度、黏度,第一时间将资讯的力量与您分享,是个人提升不可缺少的资讯平台。 财经频道 高端财经、深度解读、全球视野、独家观点、评论访谈,凤凰网财经频道依托强大的凤凰

2011搜索引擎排名因素调查报告

报告理论依据 作为搜索引擎优化技术人员,我们对商业网站搜索结果最具影响的因素尤为注意。因此,我们对此一直进行研究,调查网站搜索结果和Linkscape工具中的链接与锚文本等数据,以及从Facebook得到的社会媒体信号,还有页面因素/链接地址/域名关键词因素之间的关系。 这份文件阐释了我们的理论方法,包括数据的建立和统计分析,主要构成如下:接下来的部分包含数据建立的细节,对数据源和样本抽取的选择。最后一部分描述的是统计分析方法。 在研究细节之前,我们想对几个重要特点进行分析。虽然以后我们计划拓展分析,但目前我们只考虑英语语言,即从谷歌搜索引擎得到的结果。在2011年3月,也就是在谷歌的Farmer/Panda更新之后,我们对所有数据资料进行了采集。 数据收集 关键词列表:构建数据集的第一步选择一个查询词列表.因为该列表决定了数据集的构成质量,所以确保它涵盖各种主题和查询 种类是至关重要的.为达到此目标,我们使用了Google Adwords工具推荐的排名前15的查询种类(表1给出了关键词分类清单).Google Adwords工具给每一种类提供了800个查询,共计12000个.通过清除副本(有些查询含多个种类),我们最后得出的清单有10980个查询.

通过搜索量来测算,关键词的最终列表包含样本的头、中、尾查询。表2列出了不同本地搜索量的查询数量。从罕见搜索(每月少 于1000次)到频繁搜索(每月超过20000次,以及包含每月超过1000000次关键词搜索的数据),所有的搜索量都得到了较好的体现。 SERPs:我们在谷歌美国搜索引擎中对查询列表上10980个查询词进行了查询,并且每个词都提取了前30个搜索结果。我们 从结果中删除所有非网页搜索结果(图像、视频、新闻等),最后,我们排除所有返回的结果小于15的查询,以确保每个SERP有足够的数据点进行分析。最终剩下223737个独立的URL。 因素:构建数据集的最后一步是计算排名因素。我们收集了各种来源的因素,具体如下。 1、Linkscape URL指标.所有链接的相关因素均来源于Linkscape,使用url-metrics API调用。(Linkscape是SEOmoz开发的软件,使用自己的爬虫来获取海量的数据) 2、Linkscape锚文本对于每一个网址,我们提取了使用Linkscape锚文本API调用的前1000个锚文本术语和短语。然后,我 们确定是否有局部/精确匹配的查询。这里的“精确匹配”是指整个查询的锚文本完全匹配,而“部分匹配”是指查询中至少有一个词与锚文本匹配。 3、社会媒体的信号。对于每一个网址,我们从Facebook、谷歌Buzz和Topsy(Twitter)的API中获取各种社会媒体的信号。 4、网页上的因素。我们检索每个网址的原始的HTML/XML内容,而且计算了各种利益因素。如在不同页面元素中的关键词匹配,文件的长度等 5、域名/URL因素我们也采集了有关网址和域名的各种因素,如查询是否与域名匹配,是否域名中包含任何连字符等。在带有所有结果的数据集中可以发现该因素的完整列表和每个描述。 此次调查的介绍 此次调查的介绍两段更改为:2011年3月期间,SEOmoz采访了134位SEO专业人士,收集了他们对目前商业网站搜索结果影响因素的看法及对未来搜索的预测。下面的数据显示,自由职业者与营销人员受访者之间存在较大的分歧。此外,这些受访者的工作地点涵盖了从当地小规模网站到企业级别的网站。 本次调查还包括一些关于搜索计算的基本问题,要求每个受访者针对特定类别的网站,按顺序罗列出其潜在影响因素的清单。每个问题均有115到126人回答。除个别结果按比例进行了缩放以外,其它调查结果仍按收集的原样呈现。

网络营销实验报告

管理学院实验报告 学号9072 姓名伍静 专业班级市场营销1201 指导老师陈祥兵 实验日期 课程名称网络营销 实验名称网络营销上机实验 实验成绩 实验报告具体内容一般应包括:一、实验目的和要求; 二、主要仪器设备(软件); 三、实验内容及实验数据记录; 四、实验体会

实验一网络营销基础技能训练 一.实验目的和要求 通过安排学生任务、监督学生执行过程、评价执行结果来实现教学。任务以工作流定义的方式给出。包括:信息发布(供求信息平台、分类广告、黄页服务、网络社区等以及利用网上商店与网上拍卖)、搜索引擎营销、网络广告、许可Email营销等。要求学生能熟悉网络营销的基本技能及工具,了解各种技能及工具的性质、特点及使用效果。 二.实验原理 本系统属于模拟型的教学实验软件。系统以功能模块的方式提供网络营销的工具、方法以及营销网站建设等功能素材,让学生在老师的安排下使用这些素材解决设定的问题或达到设定的目标,通过这样的过程进行网络营销知识、技能、技巧的体验、应用和学习。 三.主要仪器设备(软件) 实验硬件:PC机 实验软件:Windows操作系统、博星卓越网络营销教学实验系统。 四.实验内容及步骤 1. 技能训练子系统(一)

2.技能训练子系统(二) 五.实验数据记录 2.网络分类广告 (1)认识分类广告的形式 1)分类广告与供求信息平台有何区别 一个是比较侧重大众化一个是侧重企业。 2)分类广告是否就是最佳的广告发布途径 不是。最佳广告发布,要根据你产品的特性,目标客户在哪,然后再选择适合的广告发布。3)不同类型的分类广告网站在内容和栏目安排上有何不同 ①地理位置的不同。分类广告网站是可以按照不同的地理位置分类。 ②服务对象不一样。对待不同的服务对象,有着不同的广告内容。部分分类广告网站是以企业为服务对象,而广告则比较注重产品的供求信息;而一些是以人们作为服务对象,广告就比较注重在衣食住行方面。 (2)发布分类广告 1)分类广告的优势何在哪些企业会选择分类广告的途径发布广告 分布广,利用率高。生活服务和商业服务等等。 2)在分类广告网注册,然后发布广告信息,比较不同的网站需要提供哪些注册认证信息 手机、身份证,特殊的身份还可以用不同的证件。例如:学生学号、员工工号等等。 3)比较各个分类广告网站的信息分类有何区别 网络分类广告是一种全新的网络广告服务形式,主要满足企事业单位和个人商户在互联网上发布各类产品和服务广告的需求,并为广大网民提供实用、丰富、真实的消费和商务信息资源,

搜索引擎技术基础-多线程编程实验报告

昆明理工大学信息工程与自动化学院学生实验报告 (2011 —2012 学年第 1 学期) 课程名称:搜索引擎技术基础开课实验室:信自楼445 2011年 11月 9日 一、实验目的 1、掌握Socket通信原理。 2、掌握并实现多线程编程技术 二、实验原理及基本技术路线图(方框原理图) 无 三、上机平台、环境 PC机,MyEclipse 7.5版本 四、实验方法、步骤 1、通过Socket通信实现客户端与服务器端的通信。

2、实现服务器端对客户端的多线程技术。 五、实验过程原始记录(数据、图表、计算等) 1、通过Socket通信实现客户端与服务器端的通信。 Socket通信分为ServerSocket和Socket两部分,ServerSocket类提供TCP连接服务,Socket类提供进行通信的Socket对象。 建立TCP连接的各个步骤:分别是: ●服务器创建一个ServerSocket对象,指定端口号,ServerSocket 对象等待客户端的连接请求。 ●客户端创建一个Socket对象,指定主机地址和端口号,向服务端发 出连接请求。 ●服务端接收到客户端的连接请求,建立一条TCP连接,再创建一个 Socket对象与客户端的Socket对象进行通信。 ●当一方决定结束通信,向对方发送结束信息;另一方接收到结束信 息后,双方分别关闭各自的TCP连接。 ●ServerSocket对象停止等待客户端的连接请求。 作为服务器首先构造一个提供TCP连接服务的ServerSocket对象,然后指定其端口号,如果接收到客户端的连接请求,则建立一条TCP连接,再创建一个Socket对象与客户端的Socket对象进行通信,然后将从文件中读入的数据传送给客户端。由于服务器需要一直等待连接,所以需要监听端口请求。 源程序: (1)服务器端 EchoServer.java package test1; import https://www.wendangku.net/doc/ed2558835.html,.* ; public class EchoServer implements Runnable{ public static void main(String args[]) throws Exception { // 所有异常抛出ServerSocket server = null ; // 定义ServerSocket类 Socket client = null ; // 表示客户端

搜索引擎性能评价报告

实验:搜索引擎性能评价 小组成员:黄婷苏亮肖方定山 一、实验目的: 依据MAP,P@10,MRR等评价指标对各个搜索引擎(百度、搜狗、必应)的查询性能进行评测,对搜索引擎满足不同信息需求的情况加以比较。 二、实验方案: 1.构建查询样例集合: (1)构建查询样例集合 规模:100个查询 热门程度:冷门/热门 类型:导航类/信息类/事务类(2:5:3) (2)根据个人经验,撰写每个查询样例的信息需求内容 2.构建Pooling: (1)抓取各个搜索引擎对步骤一查询词的查询结果 抓取的搜索引擎:五个中文搜索引擎(百度、搜狗、必应) 抓取范围:查询结果的前30位结果 注:pooling method的大概意思是查询结果去重 3.构造标准答案集合: (1)根据步骤1中撰写好的信息需求,对Pooling里的结果进行标注,标注为“答案”和“非答案”两类即可 4.查询性能评价: (1)根据标注结果,依据MAP,P@10,MRR等评价指标对各个搜索引擎的查询性能进行评价 (2)对搜索引擎满足不同信息需求的情况加以比较 5.扩展内容: (1)可以尝试对搜索引擎处引擎处理非中文查询、有错别字查询等情况的不同策略进行分析、比较 三、实验结果及分析:

根据实验结果及目的,详细分析实验结果。 1.实验结果: 百度:https://https://www.wendangku.net/doc/ed2558835.html, 搜狗:https://https://www.wendangku.net/doc/ed2558835.html, Bing国内版:https://https://www.wendangku.net/doc/ed2558835.html, 综合比较: 2.结果分析: (1)导航类搜索词 对于导航类搜索关键词,RR一般用作评价导航类的查询需求,用于表示用户在知道目标前需要浏览的结果数目,可以看到,搜狗事务类的MRR指标偏高,可以发现,当用户想要搜索的信息为已知资源,主页,资源等信息时,搜索引擎可能会更倾向于返回给用户一些官方的主页信息,以使用户能够尽快找到目标,对于导航类信息的其他指标,相差也不大,但是P@10的指标值差异有些明显,搜狗和百度的P@10值是较好的,而必应的结果则稍差,查看原始搜索结果标记,

网络工具的使用实验报告

实验纪录: 1.登录https://www.wendangku.net/doc/ed2558835.html,/,熟悉关键字广告和广告联盟。 2..登录http://e.baidu,com/? refer=800,注册一个百度竞价排名的账户,并成功登录,熟悉百 度竞价的各个管理模块。

3注册百度帐号。 4选择一个关键词进行搜索,如:平板电脑,打开搜索排名前三名的网页,分析它们的网页代码,并结合搜索引擎优化的知识,分析它们的页面采用了哪些方面进行了搜索引擎优化,并举例说明,写成报告。

1)电脑搜索排名第一的网页:https://www.wendangku.net/doc/ed2558835.html,/ac/zh/CN/content/series/aspire-e 分析网页代码: a)网页中的title: i.内容长度为33字符; ii.内容为:Aspire E | 笔记本电脑-改善日常基本设备| Acer b)网页中的description: i.内容长度为170字符; ii.内容为:终极便携性| 优化的生产力| 震撼体验| Skype 认证| Acer TrueHarmony 2)电脑搜索排名第二的网页: https://www.wendangku.net/doc/ed2558835.html,/2014_11_thanksgiving/?c=cn&cs=cndhs1&l=zh&s=dhs&~ck =mn&dgc=ST&cid=276548&lid=5295026&acd=1059262020234739&redirect=1 分析网页代码: a)网页中的keyword: i.内容长度为69字符; ii.内容为:定制, 配置, PC, 笔记本电脑, 便携式电脑, 计算机, 笔记本, 硬件, 组装, 超值, 技术, 服务器, Dell, 在线, 订购 b)网页中的description: i.内容长度为49字符; ii.内容为:戴尔(Dell China)官网热销笔记本及个式机.高性价比,限时优惠. 快来配置你心仪的电脑吧. 3)电脑搜索排名第三的网页:https://www.wendangku.net/doc/ed2558835.html,/s?wd=电脑&pn=0&oq=电脑 &ie=utf-8&dsp=baidubrowser&usm=4&rsv_idx=1&rsv_pq=ed68f5f40001ed82&rsv_t= 08b6fXxOHIgbaw0q5YJOOp8sKOZswQXYNERsDswwewgcv%2Bj5VYJoX3PfltE a)网页中的title: i.内容长度为22字符; ii.内容为:笔记本【行情价格评价正品行货】-京东 b)网页中的keyword: i.内容长度为33字符;

SEO实验报告

武汉纺织大学《网站推广与搜索引擎优化》小组实验报告班级:姓名:学号:序号: 姓名:学号:序号: 姓名:学号:序号: 姓名:学号:序号:实验时间:年月日--- 年月日 一、实验目的 能应用所学知识、对网站做网站优化和分析 二、实验内容 案例分析(A、B课题里任选一题) A.应用所学知识、从8个阶段对自己所熟悉的网站做网站优化 第一阶段:网站基本信息 第二阶段:去除弊端 第三阶段:网站结构 第四阶段:关键字策略 第五阶段:页面优化 第六阶段:页面索引 第七阶段:外部链接关系建立 第八阶段:网站维护 B. 应用所学知识、从以下方面对自己所熟悉的网站进行分析 1、网站基本信息 2、关键字查找与筛选 3、搜索量评估 4、构建网站结构 5、构建网页结构 6、关键字分布及表现 7、URL优化 8、头部优化 9、代码优化 三、备注(链接失效时,请baidu, google) 1.搜索引擎允许用户自己提交网站(一般只需要提交首页或者网站域名即可) Google:https://www.wendangku.net/doc/ed2558835.html,/addurl/?hl=zh-CN 百度:https://www.wendangku.net/doc/ed2558835.html,/search/url_submit.html 2. 寻找关键字 谷歌AdWords关键字工具(需要注册)https://www.wendangku.net/doc/ed2558835.html,

使用Google Insights(搜索解析)https://www.wendangku.net/doc/ed2558835.html,/insights 3.关键字评估 百度指数:https://www.wendangku.net/doc/ed2558835.html, 谷歌趋势:https://www.wendangku.net/doc/ed2558835.html,/trends/ 4.长尾关键字法 百度风云榜:https://www.wendangku.net/doc/ed2558835.html, 谷歌热榜:https://www.wendangku.net/doc/ed2558835.html,/rebang/home (失效) 5.网页访问速度会影响到网站页面被抓取的效果 ?使用Google Webmaster Tools下的“Google的抓取速度” ?用Google Page Speed来检测速度 ?安装firebug ?安装Page Speed 6.结构优化和内链建设 6.1 生成sitemap的方法: 第一种方式:https://www.wendangku.net/doc/ed2558835.html,/:网站地图自动生成器,在这里大家可以选择一个自己熟悉的网站生成一个网站地图的xml文件,生成的速度比较慢,所以选择不要太大的网站。生成的xml文件应该借助ftp协议上传到自己网站的根目录下。 第二种方式:Site Map Builder .NET 官方下载地址:https://www.wendangku.net/doc/ed2558835.html,/downloads/SiteMapBuilder.zip 需要Microsoft? .NET Framework 1.1支持官方下载地址:https://www.wendangku.net/doc/ed2558835.html,/downloads /details.aspx?familyid=262D25E3-F589-4842-8157-034D1E7CF3A3&displaylang=zh-cn ; 注意:【安装方式:先安装.NET Framework 1.1,然后安装Site Map Builder .NET 】第三种方式:XENU.EXE工具生成.html的地图 1、运行XENU.EXE文件,先单击“options”菜单,取消除“Valid text Url”外的其他多选按钮前的“√”,如果不取消则会结果中出现更多的选项。 2、然后选择“File”菜单下的“Check Url”命令,在第一个输入框里输入你的网址,最后单击“确定”。 3、过一段时间,系统会提示你检查完毕; 4、这时选择“File”菜单下的“Report”命令,系统会自动打开一个IE窗口,这就是生成的静态页面了。 5、最后,将此文件保存,并根据自己的要求,在DreamWeaver 或者FrontPage里面把这个静态页面修改一下即可。 7.外部优化和外链建设 7.1 往dmoz添加网站 ?进入:https://www.wendangku.net/doc/ed2558835.html,/World/Chinese_Simplified ?选择正确的目录 ?选择一个有编辑积极维护的目录

相关文档