文档库 最新最全的文档下载
当前位置:文档库 › 如何提高自己的网络搜索能力

如何提高自己的网络搜索能力

如何提高自己的网络搜索能力(2010-10-25 14:41:39)转载标签: 搜索能力杂谈 分类: 学之术
加州伯克利分校图书馆的搜索教程
首页:https://www.wendangku.net/doc/f54560383.html,/Teac ... ernet/FindInfo.html
基本策略:https://www.wendangku.net/doc/f54560383.html,/Teac ... net/Strategies.html

―――很多著名大学图书馆都有做教搜索的主页,加州伯克利过去半年进步很大,在网上所有免费搜索教程中,已可稳居第一。特点是偏学术化,学生及专业人士更适用。对搜索基本策略的把握很出色,但对搜索引擎的的了解与使用不够。

《Searcher》杂志 https://www.wendangku.net/doc/f54560383.html,/searcher/
《Online》杂志https://www.wendangku.net/doc/f54560383.html,/default.htm

―――互联网上,最优秀的搜索者、最新最高明的搜索经验在searcher杂志和online杂志。唯一的问题是它们是收费刊物,每期只提供少量文章的全文供免费阅读,但这已够你受用的。

Webmasterworld webmasterworld

―――是互联网上关于搜索引擎的最好论坛。虽然主要讨论搜索引擎注册和排名,但它对搜索引擎的变化反应之快,对搜索引擎的细节挖掘之深,如云高手对搜索引擎的见解之精,"使人们对搜索引擎的认识达到了一种新的高度"――Pandia语。

Searchtools https://www.wendangku.net/doc/f54560383.html,/

―――互联网上最好的搜索产品研究网站,内容涉及搜索引擎技术和产品相关的新闻、评论、会议、调查、比较、选购、原理、源码、背景、设计、建议。这里的"搜索产品"定义比较广义,这里没有yahoo或google的地位,搜索者就不用去了,留给制作者、购买者、研究者吧。

Search Engine Conference https://www.wendangku.net/doc/f54560383.html,/searchengines/

―――搜索引擎工业界的年度盛会。如果你要了解各搜索引擎和各大搜索引擎公司的技术动向,没有比这更好的地方了。

Researchindex https://www.wendangku.net/doc/f54560383.html,/cs

―――收录了互联网上最丰富的搜索引擎技术论文。

Search Engine Watch https://www.wendangku.net/doc/f54560383.html,/
《Search Day》https://www.wendangku.net/doc/f54560383.html,/ searchday/archives.html

―――是互联网上关于搜索引擎的最大网站,偏搜索引擎新闻和注册排名。网站过去的积累适合了解搜索引擎的过去,杰出杂志《Search Day》适合了解搜索引擎的现在。

搜索论坛 https://www.wendangku.net/doc/f54560383.html,/index.shtml?search:search
搜索研究院 https://www.wendangku.net/doc/f54560383.html,
中文搜索引擎指南 https://www.wendangku.net/doc/f54560383.html,/


―――前面提到的都是英文网站,如果你需要中文的,那么,我推荐搜索论坛、搜索研究院、中文搜索引擎指南,搜索论坛有最多的高手,搜索研究院有最纯粹最高明的搜索技巧、中文搜索引擎指南有最全的资讯。
--------------------------------------------------------------------------------------------
搜索常见问题及解

决方法小结
前言

1.信息太少或找不到
1.1错别字
1.2 不合理的关键字
1.3 没有最新信息
1.4 信息采集不够

2.检索结果相关性差
2.1 动态分类
2.2 综合搜索
2.3 重复信息
2.4 摘要显示影响感觉上的相关性
2.5 中文切词
2.6人工指定部分搜索结果
2.7 网站直达
2.8 相关性算法
2.9 收集用户反馈

3.死链接
3.1 网页快照
3.2 网页即时预览
3.3 搜索结果自动播放

4.速度慢
4.1 检索速度慢
4.2 搜索结果网页打开速度慢

5.用户支持
5.1 ilor
5.2 搜索专题:
5.3 相关搜索
5.4 toolbar,浏览器 button,地址栏搜索插件
5.5 类似网页
5.6 网站直达功能
5.7 提供高级检索界面
5.8 开放高级搜索语法
5.9 个性化设置(preference)
5.10 搜索结果排序方式可选
5.11 email订阅搜索结果
5.12 翻译其它语言搜索结果
5.13 允许选用其它搜索引擎
5.14用户交流
5.15 关键词



--------------------------------------------------------------------------------


前 言

以我的使用经验,用户在使用搜索引擎方面,最不满的5个问题是:

1. 信息太少或找不到
2. 检索结果相关性差
3. 死链接
4. 速度慢
5. 用户支持不够

以下从一个普通用户的角度,简单总结了产生这些问题的可能原因,以及针对这些问题的一些已知解决方法,都是有的搜索引擎做过的。
--------------------------------------------------------------------------------
1.信息太少或找不到

用户使用搜索引擎找到的信息太少或找不到的原因,主要是
 1.1错别字
 1.2不合理的关键字
 1.3没有最新信息
 1.4信息采集不够

◆◆1.1错别字:
(用户对所找主题不熟悉、同音字、网络通假字泛滥等各种原因导致的错误关键词很多,但用户很难自己发现自己输了错别字,只会怪搜索引擎找不到信息。多个搜索引擎有针对错别字的解决方案。)

--Yahoo
Yahoo的做法也是给出用户正常搜索关键词,但提示可能更正确的关键词。如搜索“britny spear”,yahoo会提示Other Spellings: Try searching for britney spear instead。但yahoo的辨别率较低,而且中文雅虎不支持。
--Directhit和NBCi
Directhit的做法是,给用户正常搜索结果,但在“相关搜索”中给出一个可能更正确的关键词。
使用overture之前的NBCi也是这种做法。
--google
Google在给用户正常搜索结果的同时,把可能更正确的关键词显示在搜索结果页顶端,用“你要找的会不会是:”来表示。如用户搜索“chrismas”,

会得到“chrismas”的搜索结果和“你要找的会不会是:chrismas”
--excite
excite的Zoom In曾有检查拼写错误的功能。正确单词会出现在Zoom In中,后边跟(sp)表示。
--MSN
msn采取主动更正错误的方式,用户搜索“britny spear”,会得到改正后的“britney spear”的搜索结果。
--Ask Jeeves
Ask Jeeves也是在背后主动改正用户的拼写错误。比如用户搜索"speling" ,Ask会自动搜索 "spelling"。
--openfind和3721
openfind曾提供模糊检索,支持同音、容错,但现在已撤下。
3721的南方音和同音搜索部分解决了用户拼音不好导致的错别字。

◆◆1.2 不合理的关键字:
(用户缺乏搜索常识,不懂使用合理的关键词组合,也是找不到信息的原因之一。)

--黄反屏蔽:
有些用户不知道部分搜索引擎会屏蔽黄色和反动词,以为搜索引擎找不到信息。
--自然语言搜索:
(一些搜索引擎向用户提供不同程度的模糊检索或自然语言检索功能,有助于解决用户不懂使用合理关键词组合的问题。)
-Openfind:曾经支持简单的模糊检索。
-askjeeves:凭庞大的问题库来支持自然提问搜索。
-iphrase:基于语义库的自然语言检索。
-webtop和kenjin:可以用整段文章或整篇网页检索,现在均已关闭。
--推广搜索常识
(推广搜索常识,可以提高用户水平,减少这种错误,并培养忠实用户)
-好的搜索帮助文档:某些搜索引擎的搜索帮助写得很好。
-提示搜索技巧:
263、fm365曾在搜索频道首页经常提示搜索技巧;
google有时利用搜索结果页提示搜索小常识。
-搜索有奖比赛:新浪、赛迪的两种搜索有奖比赛
-电视宣传:
年初新浪在北京台的电视宣传
近期百度在教育台的电视宣传
-出搜索书籍:
Altavista出过一本“The Altavista Search Revolution”,当时曾有不小的影响。
“我是野虎”搜索引擎出过一本书。
-媒体文章:略
-搜索论坛:新浪搜索论坛效果显著。
--Fast(alltheweb)
Fast的“pre-analysis”功能可以给用户输入的关键词自动加双引号进行词组检索
支持自动辨别长关键词串中的重要单词、删?quot;noise" words再检索,该功能是默认的,但可在高级设置中关掉。
--Altavista,
(Altavita认为:当用户输入2-4个词时,他们通常在找包含所有单词的文件,但是,当5个以上的关键词,包含多个概念时,用户经常是处于'find stuff like what I describe here',即“找一些我描述的这样的文件”的状态,这种情况下,他们并非要求搜索到

的文件必须包含所有他输入的单词。)
-对于2-4个单词的关键词,altavsta会从一个大约500,000的短语词典中寻找,如果符合其中的某条短语,就把你的关键词自动当作短语来搜索,但也会返回含有所有单字的网页。
-对于5个或更多单词的关键词,altavista会先寻找符合条件的短语,也会寻找包含部分单词的网页。

◆◆1.3 没有最新信息:
(搜索引擎抓取和索引大数量级网页需要时间,因此存在信息滞后性。但用户不懂这原理,大量的用户用搜索引擎寻找新闻尤其是突发事件,一些搜索引擎采用综合搜索或对部分网页快速更新的方法初步解决了这个问题。)

--Fast(alltheweb)
-在传统搜索结果前加最多2条即时新闻,并提供“more news articles”的链接。
-提供独立的新闻搜索,对3000多个新闻网站建立快速索引,最快可检索到1分钟前的新闻。
--inktomi
-对它约1亿的高权值网页库提高索引更新频率(每9天),付费登录网页支持最快每天更新。
--新浪
-综合搜索中含有新浪自己的新闻搜索,并有“更多”链接,指向独立的新闻检索。
--雅虎
-改版后的雅虎在传统搜索结果后加上最多3条自己的新闻标题搜索,并有“更多”链接。
--google
-在传统搜索结果前加最多4条新闻,搜自著名新闻网站(英文)。
-对320万权值高或更新频率高的网页每天更新一遍索引。
-提供一个新闻资源链接网页,提供一个新闻入口网页列出分主题的当天重要新闻。

◆◆1.4 信息采集不够
(这是一个长期存在,需要长期努力的问题)

--支持更多网页类型:
frame,redirect,java,动态网页,利用linkanalysis部分索引,各种文字和符号组合的辨别索引
--支持更多文件格式:
wkx,mw,xls,flash,pdf,ppt,ps,doc,rtf ,doc,图象,视频,音频……
--提高网页库质量:
去重,减少死链接,优化网页选择策略
--及时更新:
同1.3
--增大网页库数量级:


--------------------------------------------------------------------------------
2.检索结果相关性差
◆◆2.1 动态分类
(使用同一个关键词搜索,不同用户需求的信息是不同的,比如“石器时代”,他找的是历史相关信息?游戏相关信息?如果是游戏相关信息,他找的又是同名网站?官方网站?战网?游戏介绍?买游戏产品?游戏新闻?攻略?但搜索引擎通常只把一类信息排在前,导致其它信息搜索者认为相关性差。随着网页数量的迅速增长,这问题会更严重,搜索结果动态分类有助于这个“用户信息需求多元化”的问题。)

--no

rthernlight
人工预设目录结合自动归类
--queryserver、vivisimo
主要利用结果摘要提取关键词归类
--teoma
利用超链分析对结果网页归类
--fast
利用dmoz分类目录结合自动归类
--znow
利用详细的预设目录归类
--Guidebeam
对搜索结果网页分析归类
――oingo
利用语义库分类

◆◆2.2 综合搜索
(用户搜索一次,同时看到跟该关键词相关的多种信息,也有助于改善上边提到的用户信息需求多元化的问题)

--sina:一次提供目录、网站、网页、新闻、商品等多种搜索结果。
--britannica:一次搜索,同时显示产品、书籍、网站、百科全书、杂志、录音带等的搜索结果。
--google:提供字典、分类目录、新闻、股票、电话、地图搜索等,根据关键字显示不同内容。

◆◆2.3 重复信息

--不同网址的相同内容引起的重复
百度:内容类聚
--网站互相抄袭引起的内容重复
Google:相似内容类聚

◆◆2.4 摘要显示影响感觉上的相关性

--动态摘要:
Google:动态摘要使搜索结果看上去更相关。
(注:2002年3月,百度已升级为动态摘要)
--结合分类目录摘要:
-google对搜索结果中被dmoz收录的网页,加上了dmoz人工编辑的网站摘要,与动态摘要并存。
-openfind利用蓝帆的分类目录给出部分网页搜索结果的摘要。
--网页截图
girafa、searchshots除文字摘要外还提供一张网页截图,用户得到视觉化摘要,更易辨别选择搜索结果。

◆◆2.5 中文切词
(中文切词不准使搜索结果相关性差,是一个长期的、渐进的问题)

--百度的人名中文切词专利

◆◆2.6人工指定部分搜索结果
(人总比电脑更理解人的需求)

--有些搜索引擎对热门关键词的搜索结果作过人工干预,所以这些词的检索结果相关性比其它自动生成的要好。

◆◆2.7 网站直达

--overture的Quick Hit
overture的排名谁都可以买,但很多用户检索“yahoo”“aol”等网站名时是想上那个网站,因此,overture对这种有官方网站的关键字,在检索结果前增加了一条“Quick Hit”,用户点击后可直达官方网站。
--msn的realname
分类目录的信息量小,检索结果的相关性无法跟网页检索一样靠算法提高,所以msn在分类目录搜索结果前,使用了realname,使搜索网站名的用户可以直达相关网站。
--aol
aol在分类目录搜索结果前,用recommended sites 的形式提供官方网站链接。,

◆◆2.8 相关性算法

--超链分析的提升(Link popularity、anchortext、context)
超链分析先天缺陷:使小站、新站、专业站处于

不利地位。一个专业小网站,它的内容再好,因为不能迅速得到大量高质量的超链,难以得到合适的排名。
--内容分析的提升
--User popularity
(有些搜索引擎利用用户倾向统计来排序)
-directhit:按搜索结果点击率及网站停留时间排序
-hotlinks、blink:收集用户收藏夹按网站被收藏率排序
-top9:根据网站访问人数排序
-google:曾分析约1成的搜索结果点击,据以调整相关性算法。利用advanced toolbar收集用户访问习惯作分析

◆◆2.9 收集用户反馈

--overture、britannica
它们在每个搜索结果页上放了一个浮动调查,让用户以“――、-、+-、+、++”5档评选当前搜索结果的相关性,然后根据统计结果,及时研究和改善受到劣评的搜索结果页。
--google
英文版允许用户对当前搜索结果页发表意见。有5个意见选项可选择:Off-topic、Offensive、Described poorly、Too similar to one another、The page I was looking for wasn't listed in the results,另外,用户可写上正在寻找的url或描述想找的内容。在Google的新版toolbar也提供了相似的搜索结果用户投票功能。


--------------------------------------------------------------------------------


3.死链接


◆◆3.1 网页快照

--Alexa、google、daypop等搜索引擎有应用

◆◆3.2 网页即时预览

--vivisimo、wisenut:
点击一条搜索结果链接后,在当前窗口中开一个frame,预览该网页。可减少用户从死链接受到的挫折。

◆◆3.3 搜索结果自动播放

--metacrawler、metor、robocast:
用户搜索后,如果选择自动播放,可以看到搜索结果网页一个一个的轮流打开,可设定每个网页停留时间、可随时打开新窗口、可选定几个网站后打开自动播放。省去了用户不断点击的麻烦。


--------------------------------------------------------------------------------


4.速度慢


◆◆4.1 检索速度慢

--利用cache

◆◆4.2 搜索结果网页打开速度慢

--简化网页设计
--加快网页传输


--------------------------------------------------------------------------------


5.用户支持


◆◆5.1 ilor
(在ilor检索后,用户把鼠标移到搜索结果链接上后,鼠标旁出现4个选项)

--go now-anchor here:
打开该项结果,并用浮动小窗口记录该结果的位置,任何时刻点一下浮动小窗口就可回来,省去经常按后退的麻烦。可打开多个anchor。
--onpen in new window :
在新窗口中打开并显示此项搜索结果,
--open in background:
新窗口中打开,但显示在当前窗口背后,以免影响当前窗口视线。
--put in my list:
在弹出的浮动小窗口中收藏

本链接,以便其它时间再看。可收藏多个链接。

◆◆5.2 搜索专题:
(人工制作一个介绍某领域优秀网站和搜索常识的专题,对用户颇具帮助)

--About:700多个搜索专题
--Northernlight:26个Special Editions
--263搜索:游戏、性爱、mp3、教师节、桌面等搜索专题

◆◆5.3 相关搜索

--baidu、altavista、webtop、nbci的相关搜索
――excite的zoom in
――askjeeves的相关问题

◆◆5.4 toolbar,浏览器 button,地址栏搜索插件

--toolbar:google、openfind
--浏览器button:google
--地址栏搜索插件:3721

◆◆5.5 类似网页

――alexa:为alexabar、ie、netscape提供的相关网站功能
--teoma:Experts’ link 也具有寻找同类网页的功能
--google:类似网页

◆◆5.6 网站直达功能

--手气不错

◆◆5.7 提供高级检索界面

--略

◆◆5.8 开放高级搜索语法

--站内搜索、标题搜索、短语检索、时间限制、inurl较常用

◆◆5.9 个性化设置(preference)

--允许用户自己设定并记忆搜索引擎设置:fast、altavista、wisenut、google

◆◆5.10 搜索结果排序方式可选

--zeal、nbci的分类目录搜索,曾经可选择按照relevance、new、popular、link任一规则排序。
--northernlight可按时间排序。

◆◆5.11 email订阅搜索结果

--profusion、northernlight:
订阅指定关键字的搜索结果,有更新的搜索结果会自动email发送。

◆◆5.12 翻译其它语言搜索结果

--altavista、google:提供对搜索结果的翻译

◆◆5.13 允许选用其它搜索引擎

--yahoo、google、ask:在搜索结果页上提供其它搜索引擎的链接,用户点击后,调用其它搜索引擎检索当前关键词。

◆◆5.14用户交流

--节日问候
--专用email、论坛、反馈提交入口
--提供免费提交网页入口、及robot.txt教学文档

◆◆5.15 关键词

--yahoo、google:定期展示热门关键词统计结果
--chinaren、21cn:曾滚动显示其它用户当前搜索关键词
-----------------------------------------------------------------------------------------
当——搜索引擎令你失望时

如果没有搜索引擎,我们都会迷失在辽阔的信息海洋中。但是,有些时候,不管你掌舵是多么的老练,搜索引擎可能不是帮助你自由的冲浪,而是让你迷航。


搜索引擎的失败包括从搜索到几十万几百万的无关结果,到搜索不到任何结果,以及这两个极端之间的各种不同程度的失败。这里是搜索引擎

令你失望的五种常见状况,我们给出了如何挽救失败搜索的特殊技巧。


1:找到 8,700,000 相关网页:找到几十万几百万的过多网页
=================================

==========================

最常见的搜索失败,象上边这个例子,搜索引擎没有帮你找到草堆中的那根针,而是给了你整个草堆。
通常,这种搜索失败有两个原因,这两个原因其实都很容易解决。


第一,你用来搜索的关键词太短了,可能只有一两个字。
第二,你要搜索的内容太常见了,以至网上有巨大数量的相关内容。

搜索请求中的常见短语(Common words)词通常是一个多单词的短语,含有三到四个在句子中常见的单词。
只要可能,尽量使用常见词的同义词。更好的方法是,想出不常用的甚至是罕见词来描述你的主题。这里的诀窍是不要把自己想得太聪明,不

要使用不会被大多数网络写作者使用的关键词。 如果你必须使用某个常见词,那么使用 (加号)和-(减号)来缩小你的搜索范围。比如:' George Washington -state -D.C. -university' 会主要找出关于George Washington这个人的网页,不会被淹没在大量跟 Washington state、 Washington D.C. 和 George Washington University有关的网页中。

这简单的小符号能够帮你去除成千上百万的无关网页。


2:你的搜索没有找到任何相关网页 :没有找到任何网页
======================================================

If you have typed the address (URL), do check the spelling!

虽然这种情况不算多,但搜索引擎有时确实不能按你的搜索要求找到任何内容。
有时出现这种问题仅仅是因为网上还没有你要找的内容。当你找一个人,找一个没名气的小公司,或者找非常深奥冷僻的论据时就有可能遇到这种情况。

这种失败多半是因为你找错了地方。找人,就不要用普通搜索引擎,用专业的寻人工具会更有效。找公司,应该用Transium 或 Kompass 这样的黄页工具。找深奥冷僻的论据,为什么不试一试Ask Jeeves 或其它的专业参考服务呢?

你要知道主要搜索引擎收集的网站在数量和范围上都有很大的差异。Yahoo (一百多万) 和 Webcrawler (二百多万)如果跟AltaVista, HotBot, 和Northern Light数以亿计的数量相比真是小儿科了。


如果你要找的内容必须用普通搜索引擎来搜索,那么使用元搜索引擎吧,象Dogpile, Mamma, 或Savvy Search。


3:“404-Not Found”错误 点击搜索结果,却得到“404-Not Found”错误
=========================================================================

网管犯的最愚蠢的错误之一,但也是相当常见的错误是:象整理自己的硬盘一样整理网站,把所有混乱的文件起上规范的名字,然后搬到整整齐齐结构清晰的文件夹中。

当文件被移动或重新命名后,收藏这个文件的每一个书签,搜索引擎指向这个文

件的每一个链接,以及指向这个文件的每一个被发表的链接,就都作废了。这种欠考虑的“整理”在网络上制造了远比计算机失灵更多的混乱。如果我是因特网的总管,一定会把修改url定为非法,哪怕一个网站会多么的混乱。

OK, 牢骚就发到这里。但是,当遇到这种情况时,你能做什么?


有个好消息可以告诉你, '404' 或者 'document not found' 这种信息是由那个曾经的网页呆过的服务器发出的,就是说该服务器还在那里,

你所要做的只是一点小小的侦察工作,找到那个网页在该服务器上的新位置。

使用一种叫做'URL back-up' 的方法,把你的指针移到地址栏里'htm' 或 'html' 的后边,然后往前删除文件名,在碰到第一个斜杠后停止,然后打回车键。重复此动作,直到你找到含有指向你找的文件的链接的菜单,或者到根目录为止。根目录上应该有链接或搜索框能帮你找到所需文件。

多数情况下,只要文件还在原来那个服务器上,你在原来位置的附近小小的转一圈就能找到它。更大的问题是文件从原始服务器上彻底消失了。



4:网站已搬走;转向地址未知 搜索到的网站已搬走,地址未知
============================================================


网站就象人,有时会被迫迁移。学生毕业了;网页从免费社区搬到有独立域名的大网站了;人们改变ISP了。
当遇上这种事时,你最好赌一下运气,搜索你在寻找的文件的标题或者作者的名字。搜索标题很简单,只要用双引号括起来进行短语搜索就行了。但是更好的方法是对标题进行field搜索。

field搜索是大多数搜索引擎支持的高级功能。
它允许你限定在搜索HTML的标题,就是会出现在浏览器标题条上的那些标题。(这种标题页是默认的收藏夹标题)。你可以利用field来搜索标题、图片和其它的网页特殊部分。

如果你搜索文件的作者,那么使用 HotBot的'the person' 搜索选项。搜索人的时候,记得名字首字母要大写,整个姓名用双引号括起来。


5:上次能搜到的内容,这次却搜不到了
======================================

你做了所有努力,可是,上星期还带给你很好搜索结果的搜索请求,这次无论你怎么努力,都只搜索到一堆无用的结果,你想要找的网页已经不见了。发生了什么事?

有关搜索引擎的一个肮脏的小秘密是:搜索引擎永不停息的从它们的索引库中抛弃已索引的网页。有时是成千上万的网页。有时这些被遗弃的网页会重新出现在索引库中,有时不会。

正式的解释从精选索引数据库、保持索引内容的新鲜和相关度、到维护改造临时数据

库都有。
all and well,否则你在寻找的文件永远不会再出现在索引库里。

幸运的是,有两个地方可以让你找到需要的网页。Google 对它索引的的所有网页准备了一份'cache'。即使你要找的网页链接已经连不上了,

你也可以点击该网页的“cache”,然后你会得到google上次索引该网页时准备的备份。

Alexa, 制造了一个受欢迎的工具条,这个工具条能显示相关网页的链接,并保存了超过100万网页的档案。使用Alexa, 当你的浏览器显示 'not found' 信息时,你可以点击Alexa窗口上的'archive' 链接,查看该网页的备份。

这种方法有不利的一面,Google的cache和Alexa的archive都可能是过期的内容。当然,在大多数情况下,有点东西总比什么都没有强。


话外音
=======
有多少熟练的搜索者,就有多少搜索

相关文档
相关文档 最新文档