GO"关闭链接下面我们来建立搜索页面搜索页面好了,这个站内搜索引擎到这里就算完成了,你接下来要做的就是吧东西输入数据库了!利用网站的“站内搜索”功能采集数据利用网站的“站内搜索”功能采集数据V1.0四川大学电子信息学院信息安全文档编写与整理:liyawei2014/9/26概述●本文描述利用网站的“站内搜索”功能采集数据、以制作一个迷你的搜索引擎的原理和思路。关于站内搜索很多网站都" />
文档库 最新最全的文档下载
当前位置:文档库 › 一个ASP站内搜索的实例源代码

一个ASP站内搜索的实例源代码

一个ASP站内搜索的实例源代码
一个ASP站内搜索的实例源代码

一个ASP站内搜索的实例源代码

主题

查看

<% while not rs.eof %>

<% rs.movenext %>

<% wend %>
<% =rs("id") %><% =rs("title") %>">GO
<% rs.close %>

<% mycon.close %>

"关闭链接

下面我们来建立搜索页面

搜索页面


好了,这个站内搜索引擎到这里就算完成了,你接下来要做的就是吧东西输入数据库了!

利用网站的“站内搜索”功能采集数据

利用网站的“站内搜索”功能采集数据V1.0四川大学电子信息学院信息安全文档编写与整理:liyawei 2014/9/26 概述 ●本文描述利用网站的“站内搜索”功能采集数据、以制作一个迷你的搜索引擎的原理和思路。 关于站内搜索 很多网站都有“站内搜索”功能来帮助用户检索站内信息。举例: 站内搜索功能的工作原理 ●以乌云网为例: ●在乌云站内搜索功能中搜索“XSS”时,返回以下页面:

●用HTTP报文截获工具观察这个过程,当在站内搜索的文本框内输入“XSS”并点击搜索时。浏览器向服务 器发送以下报文: 清晰的发现我们输入的数据在POST数据的参数q中。 ●返回报文中一般包含html源码 这个源代码就是搜索结果返回页面的源代码 ●我们需要采集的数据就在这源代码当中可以找到

如何在源码中提取数据 ●假设现在需要采集的数据如下 ●通过审查html代码,我们发现每个漏洞标题在以下标签中 漏洞标题 而且html中其他内容没有类似的格式。 ●那么就可以编写正则表达式 [^<]*<\/a> 来匹配 漏洞标题

并把匹配后的结果放入一数据结构中,该数据结构中的内容就包含我们需要提取的数据,在此处的“漏洞标题” 目标网站的搜索结果被分页时 ● ●当点击第二页的链接时,浏览器发出以下http请求报文: ●同理,服务器返回带有html源码的http响应报文,根据先前所说的思路提取出需要的数据 编程思路 ●手动截获http报文了解目标网站中站内搜索的工作,依照截获的报文构造很多http请求报文,根据相应的 响应报文的固定特点,使用正则表达式匹配出需要的内容。当然,以上只完成了数据收集过程,作为一个搜索引擎,还需要将采集的数据整理,并向用户显示。 ●软件的整体工作流程如下:

十大网站实例告诉你如何做好站内搜索

十大网站实例告诉你如何做好站内搜索本篇文章里,小编将通过几个网站的站内搜索实例给大家展示一下什么样的站内搜索是比较成功的,同时也是给各位卖家一些建设性的建议。废话不多说,我们直接看这些网站是如何做的。 MySpace 图二 该网站可以进行可视化搜索,使用户迅速的瞥一眼就能找到相关的内容和页面。 Dawson’s Music 当你在该网站上进行搜索时,它能在视觉上帮你自动完成搜索结果: 图三 同时,站内搜索结果的呈现方式也非常完美: 图四 Swarovski 该网站的站内搜索能显示更细化的分类范围,更简洁的呈现方式。而且,当把鼠标移到产品上的时候还能自动显示大图: 图五 Hobbycraft 图六 站内搜索强大的资源库,帮助你自动完成搜索的视觉提示,非常详细的产品建议,这些该网站都能够完美的诠释。 Kurt Geiger 搜索结果的一系列展示方式,有很好的筛选和分类功能: 图七 Fat Face 有滚动的功能,可以通过鼠标滚动查看到所有的搜索结果,而不用费时费力的频繁点击下一页。 图八 Wiggle 搜索结果可以选择呈现出其他买家的建议,这是一个很好的指南。而且,该网站的图片不仅吸引人,还比较大,分类选择也比较全面。 图九 Waitrose 其“jotter multi search”功能非常独特,允许用户在自己购物列表的众多物品选项中直接进行搜索。这一点各位卖家可以效仿。

图十 Sweaty Betty 几乎站内搜索的所有功能都能够提供,自动完成搜索结果,完美呈现结果等。它不仅有很多种筛选和分类选择,而且还有可供选择的视图,当鼠标移动到搜索结果上的时候还会出现“立即购买”的选项,界面可以说是非常友好了。 图11 Lush Lush展现站内搜索结果的方式会有所不同。在搜索结果中,产品和非产品结果都会显示出来,而且显示也大小不一,过滤选项也是隐藏起来的。但是,其搜索结果是非常精确的,图片是非常华美的,而它的站内搜索也确实做得比较好。 图12 当然,不同的网站所采取的战略不一样,而相似的只是他们的效果,是他们所达到的成功程度。看看别人的站内搜索是如何完美实现的,对照自己的网站,用心体会,相信卖家们从中能得到不少启示。

搜索引擎网络蜘蛛程序代码

搜索引擎/网络蜘蛛程序代码(转) 2008-07-12 09:54 国外开发的相关程序 1、Nutch 官方网站 https://www.wendangku.net/doc/f07028774.html,/ 中文站点 https://www.wendangku.net/doc/f07028774.html,/ 最新版本:Nutch 0.7.2 Released Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具,可以建立自己内部网的搜索引擎,也可以针对整个网络建立搜索引擎。自由(Free)而免费(Free)。 2、Lucene 官方网站 https://www.wendangku.net/doc/f07028774.html, 中文站点 https://www.wendangku.net/doc/f07028774.html,/ Lucene是apache软件基金会 jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包[用Java写的],即它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎(英文与德文两种西方语言)。Lucene的目的是为软件开发人员提供一个简单易用的工具包,以方便的在目标系统中实现全文检索的功能,或者是以此为基础建立起完整的全文检索引擎。 3、Larbin: https://www.wendangku.net/doc/f07028774.html,/index-eng.html larbin是一种开源的网络爬虫/网络蜘蛛,由法国的年轻人Sébastien Ailleret 独立开发。larbin目的是能够跟踪页面的url进行扩展的抓取,最后为搜索引擎提供广泛的数据来源。 国内开发的相关程序 1、SQLET - 开放源码的中文搜索引擎

官方网站 https://www.wendangku.net/doc/f07028774.html,/ SQLET,是Search & Query &Link, 加后缀 let,表示小的,小型的意思.打算建立一个能搜上亿张网页的基于主题功能的中文搜索引擎.支持3种索引方式:MySql_table_Index,Lucene_Index,SQLET_Index.网页抓取可以保存在文件系统及数据库里。自带WebServer. 2、菲度垂直搜索引擎代码 菲度https://www.wendangku.net/doc/f07028774.html, 为一个垂直在线搜索的演示版,主要对国内一些购物站点进行搜索整理, 语言:https://www.wendangku.net/doc/f07028774.html,(c#) 二、中文分词程序代码 1、计算所汉语词法分析系统 ICTCLAS 中国科学院计算技术研究所在多年研究基础上,耗时一年研制出了基于多层隐马模型的汉语词法分析系统 ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),该系统的功能有:中文分词;词性标注;未登录词识别。分词正确率高达97.58%(最近的973专家组评测结果),基于角色标注的未登录词识别能取得高于90%召回率,其中中国人名的识别召回率接近98%,分词和词性标注处理速度为31.5KB/s。ICTCLAS 和计算所其他14项免费发布的成果被中外媒体广泛地报道,国内很多免费的中文分词模块都或多或少的参考过ICTCLAS的代码。 下载页面:https://www.wendangku.net/doc/f07028774.html,/project/project.php?proj_id=6 由于 ICTCLAS 是由 C 语言写成的,现在主流的开发工具用起来不太方便,于是有一些热心的程序员把 ICTCLAS 改为 Java 和 C# 等其他语言。 (1)fenci,Java 的 ICTCLAS,下载页面: https://www.wendangku.net/doc/f07028774.html,/printpage.asp?BoardID=2&id=11502 (2)AutoSplit,另一个 Java 的 ICTCLAS,已经找不到下载页面,点击本地下载 (3)小叮咚中文分词,曾经有下载页面,现在找不到了。据作者介绍,从 ICTCLAS 中改进,有 Java,C# 和 C++ 三个版本,介绍页面: https://www.wendangku.net/doc/f07028774.html,/accesine 2、海量智能分词研究版 海量智能计算技术研究中心为了使中文信息处理领域的研究者们能够共同分享海量智能中心的研究成果,共同提高中文信息处理水平,特此发布《海量智能分

PHP+MYSQL+SCWS 做自己的站内搜索引擎

PHP+MYSQL+SCWS 做自己的站内搜索引擎 天底下竟然有这么一种站内搜索引擎,它支持中文分词,支持全文搜索,无须任何扩展,不用对服务器进行任何设置,只要支持PHP和MYSQL就行,他操作简单,效率高,效果好.这就是PHP+MYSQL+SCWS 站内搜索引擎. 事实上,无论大小,从新浪到爱卡汽车网,从日PV过亿的网站到我自己的个人博客,都需要站内搜索引擎.站内搜索引擎对于网站的作用,是不言而喻的.最直接的作用是让用户以最直接的方式,最快的速度在你的网站里找到他想要的东西.而不是再到百度谷歌去,搜索到别人的网站. (一) 最基本的站内搜素利用SQL的LIKE 例如 1 SELECT * FROM bbs_threads WHERE subject LIKE '%搜索引擎%' LIMIT 10 优点:太容易了,是人都会 缺点: 1. 每次执行LIKE语句都需要一次表遍历,用的是字符串比较,效率太低. 2. 不能分词,只能整句话搜索.如果搜索词较长,几乎搜索不出任何结果.如果加上分词功能,相当于一条语句里使用好几个LIKE,同1. (二) 谷歌自定义搜索 利用谷歌搜索引擎API以及谷歌强大的搜索功能,建立自己的站内搜索. 演示: https://www.wendangku.net/doc/f07028774.html,/search.html?cx=014724041144905348996:pf5fnahnzuw&cof=FORI D:11&ie=UTF-8&q=危机&sa=搜索&siteurl=https://www.wendangku.net/doc/f07028774.html,/ 优点: 省心,没有比这个再省心的了.你啥都不用管.谷歌都是自家的了,人家的搜索算法,那怎么是咱们能比得了的呢. 缺点: 1.需要使用IFRAME,或者直接打开谷歌的页面,或者用更复杂的API来实现. 2.只能按照文本搜索,只能全站搜索.我要想在某个频道下,搜索指定类型的文章等要求谷歌就不能实现了.一句话,就是不能自定义. 3.如果你的网站小,谷歌人家都不带收录你,啥也搜不出来你咋办? (三) lucene 全世界最好的开放源代码搜索引擎 呃…没啥好介绍的,直接看优缺点吧 优点: 完全开放源代码,完全可以自定义,完全…..

22条站内搜索优化技巧

22条站内搜索优化技巧 我们以各类营销方式,使访客通过直接输入地址、搜索引擎搜索、邮件或标签回访等方式访问站点。愿意拜访,并不是我们的营销手段高明,而是他们都怀揣着一丝渴求,渴求获取:心爱的物品、最新的消息、学习的机会、有价值的信息、自我价值的实现等等,物质层面与精神层面的满足。登陆网站寻宝的第一步,导航菜单、站点地图、Tag标签、面包屑、站内搜索等都是我们提供挖宝工具,其中站内搜索最能说明访客的心声。 言归正传,那站内搜索怎么设置才更有利于访客使用呢?我们一起看看以下22条优化策略。 搜索框优化 1、搜索框位置 搜索框应该放在访客所期望的位置:右上角或上面中间位置。避免以“搜索”文字链向导航菜单的形式作为搜索功能,因为大多数访客喜欢用搜索框的形式进行搜索。还应避免将邮件注册、邮件订阅等输入框,放在搜索框应该出现的位置,那样会误导访客。如果非得将邮件输入框与搜索框放在临近的位置,可以在框内显示“请输入邮件地址”、“请输入搜索关键字”提示。 2、搜索框大小 搜索框必须足够长去容纳搜索词,至少可见30个字符,以便访客在点击“搜索”按钮前,能够查看到搜索词的大部分内容,确认是想要的搜索词。 3、搜索范围 范围限定搜索,可以使得用户在特定区域进行搜索,例如书籍、音乐、DVD等。理论上听起来不错,但并不是全部通用。雅各布·尼尔森基于10年多的可用性研究,表明揭露了这个问题,例如:用户选择了错误的分类进行搜索,或者用户没有意识到正在限定范围内进行搜索,而不是整站(尤其当搜索范围默认为某特定区域时)。

因此,可以采用亚马逊的方式,默认全站搜索,然后通过结果分类导航,进行结果筛选、精确检索。 OK,有种情况例外,当商品信息与其它信息融合在主站搜索栏时(软件行业站点较普遍),使用范围限定搜索反倒是个好主意,比如:对讨论区、合作信息、产品信息等各区域搜索的限定。 搜索小工具优化 4、自动提示

站内搜索代码

直接粘在页面中即可使用:

注意:请根据自己网站编码而更改搜索代码中的编码,如:UTF-8、GB2312等。
下面是Google和百度的Javascript版的站内搜索代码: