文档库 最新最全的文档下载
当前位置:文档库 › AIX系统日志

AIX系统日志

AIX系统日志
AIX系统日志

AIX系统日志说明

1、系统错误日志

存放路径:/var/adm/ras/errlog

说明:该日志记录了系统所检测到的软硬件故障和错误,尤其对系统的硬件故障有很大的参考价值,是AIX提供的最有价值的日志之一, errlog 文件用more或者其他文本的查看命令来打开我们看到的只是一对乱码,为了能够查看错误日志文件需要使用aix的errpt命令,如:errpt 列信息;errpt –a列详细信息,详细使用方法可以参考man,

2、用户的登录日志

存放路径:/var/adm/wtmp /var/adm/sulog

说明:这些日志记录了用户登录和访问服务器的情况信息,具体的日志文件有wtmp、、sulog 等,它们记录的分别是不同的事件,wtmp记录的是历史的login和lognout信息,可以用last命令访问。sulog记录的是用户用su命令转变为另一用户的信息。who、last等这些命令可以查看wtmp和sulog的内容

如:Last –f wtmp

我们想查看最近10次登录的用户和他们的地址,可以用如下命令:

last -10

3、用户的失败登录日志

存放路径:/etc/security/failedlogin

说明:这些日志记录了用户登录和访问服务器失败的情况信息,登录失败的情况单独记录在该日志中,可以用who命令来查看。

4、集群管理软件hacmp的日志

存放路径:/tmp/hacmp.out

说明:HACMP是IBM提供的确保系统运行可靠性的集群套件,HACMP在每次启动和关闭时都要经历一段时间以停止服务和转换文件系统,我们可以通过对HACMP。OUT日志文件的跟踪实时的了解HACMP在启动和关闭时的信息,如出现启动失败则可以帮助我们定位错误。

可以使用tail进行跟踪,tail –f /tmp/hacmp.out

5、系统启动错误日志

存放路径:/var/adm/ras/bootlog

说明:该日志可以跟踪系统在Boot过程中发生的问题,包括服务器液晶板上的代码信息都有记载。可以使用alog命令监视这些问题, 存放在/var/adm/ras/bootlog中,可以使用alog –o –t boot命令查看该文件。

6、FTP用户操作日志

存放路径:自定义(建议/tmp/ftplog.out)

说明:很多服务器都会用到FTP功能,大量的用户通过FTP登陆到服务器上给系统的安全性带来了很大的问题,AIX给我们提供了一套很不错的可以记录用户FTP操作情况的日志。

具体设置步骤如下:

在/etc/inetd.conf文件中编辑 FTP 一行,在FTPD后加“-d”

重启服务: refresh –s inetd

touch /tmp/ftplog.out

在/etc/syslog.conf文件中加上两行:

daemon:debug /tmp/ftplog.out

daemon:info /tmp/ftplog.out

重启服务: refresh –s syslogd

7、crontab执行情况日志

存放路径:/var/adm/cron/log

说明:主要是查看各用户crontab执行情况的日志。

aix的日志系统总结

----------------------参考的于宁斌《AIX 5L系统管理技术》

日志系统工作流程介绍

1.一旦系统的某个功能模块检测到一个错误或定义的需要记录日志的事件,则记录到/dev/error设备,把它保存在NVRAM中,这样可以保证即使在系统崩溃的情况下也不会丢失最新的错误日志。

2.同时,错误日志进程errdemon从/dev/error文件中读取错误日志,然后根据错误模版库(/var/adm/ras/errtmpit)和错误消息库(/usr/lib/nls/msg/$LANGcodepoint.cat)对其进行处理后写入系统的错误日志/var/adm/ras/errlog中。

错误日志进程由/usr/lib/errdemon命令启动,/usr/lib/errstop停止,默认是启动的。errdemon进程:

从/dev/error逻辑设备文件中读取纪录,然后在系统错误日志中创建错误日志纪录,显然这才是重点。

Errdemon的配置:

/usr/lib/errdemon 命令可以启动errdemon进程,同样我们也可以通过使用参数来修改我们的errdemon,显然如果我们不是太了解还是系统初始的配置更适合我们!

例如:

/usr/lib/errdemon –s 20000 设定我们的日志文件大小为20000bytes

最可能用到的可能就是-l参数了

/usr/lib/errdemon –l

# /usr/lib/errdemon -l

Error Log Attributes

--------------------------------------------

Log File /var/adm/ras/errlog

Log Size 1048576 bytes

Memory Buffer Size 16384 bytes

Duplicate Removal true

Duplicate Interval 100 milliseconds

Duplicate Error Maximum 1000

上面显示我的错误日志文件是/var/adm/ras/errlog,这也是系统默认的错误日志的存放位置。

具体其他的参数可以参看man 手册。

使用方法大概介绍:

查看错误日志:errpt命令

用more或者其他文本的查看命令来打开errlog文件我们看到的只是一对乱码,为了能够查看错误日志文件需要使用aix的errpt命令。

使用errpt命令查看日志,可能根据使用的参数来确定输出什么样的日志,甚至排序的方式,这是使用纯文本的日志不能做到的,或者说不能轻易做到的。

下面我们来看errpt命令的使用。

# errpt

IDENTIFIER TIMESTAMP T C RESOURCE_NAME DESCRIPTION

9DBCFDEE 010******* T O errdemon ERROR LOGGING TURNED ON

192AC071 010******* T O errdemon ERROR LOGGING TURNED OFF

C092AFE4 010******* I O ctcasd ctcasd Daemon Started

A6DF45AA 010******* I O RMCdaemon The daemon is started.

9DBCFDEE 010******* T O errdemon ERROR LOGGING TURNED ON

192AC071 010******* T O errdemon ERROR LOGGING TURNED OFF

369D049B 010******* I O SYSPFS UNABLE TO ALLOCATE SPACE IN FILE SYSTE

这里的输出分为六列依次为:

1.错误标示符IDENTIFIER:并不唯一,由它来确定使用的错误模板,显然同一种错误的IDENTIFIER是相同的。

2.时间戳TIMESTAMP:错误发生的时间,MMDDhhmmYY,依次表示月日时分年。

3.类型TYPE:错误的类型,或者说严重的程度。

分为6个:

PEND 设备或功能组件可能丢失简写P

PERF 性能严重下降 P

PERM 硬件设备或软件模块损坏,确诊了的 P

TEMP 临时性错误,经过重试后已经恢复正常 T

INFO 一般消息,不是错误 I

UNKN 不能确定错误的严重性 U

4.种类CLASS c:指出错误源

H 硬件或介质故障

S 软件故障

O 人为错误

U 不能确定

5.资源名RESOURCE_NAME

最初检测到错误的资源名软件或者硬件,并不代表这个资源有问题,而只是最先在它发现的。6.描述

显示详细的日志信息

# errpt -a|more

Standard input

---------------------------------------------------------------------

Standard input

LABEL: ERRLOG_ON

IDENTIFIER: 9DBCFDEE

Date/Time: Sun Jan 9 03:44:04 BEIS

Sequence Number: 309

Machine Id: 004250B94C00

Node Id: ibm-5L

Class: O

Type: TEMP

Resource Name: errdemon

Description

ERROR LOGGING TURNED ON

Probable Causes

ERRDEMON STARTED AUTOMATICALLY

User Causes

/USR/LIB/ERRDEMON COMMAND

Recommended Actions

NONE

其它

指定日志文件–I可以用来查看一个非errdemon指定位置的日志文件,例如某个日志文件备份。

-t 参数,只显示-t参数指定的错误类型TYPE。

-s 显示指定时间之后的日志文件.

-d 指定种类CLASS.

详细的参数只能看man 手册了

# errpt -a -j 74533D1A

# errpt -s 010*******

IDENTIFIER TIMESTAMP T C RESOURCE_NAME DESCRIPTION

9DBCFDEE 010******* T O errdemon ERROR LOGGING TURNED ON

192AC071 010******* T O errdemon ERROR LOGGING TURNED OFF

C092AFE4 010******* I O ctcasd ctcasd Daemon Started

A6DF45AA 010******* I O RMCdaemon The daemon is started.

9DBCFDEE 010******* T O errdemon ERROR LOGGING TURNED ON

日志的清理

errclear命令可以用来清理错误日志

并且默认情况下cron会每天清理错误日志

# crontab -l

0 11 * * * /usr/bin/errclear -d S,O 30

0 12 * * * /usr/bin/errclear -d H 90

0 15 * * * /usr/lib/ras/dumpcheck >/dev/null 2>&1

显然,找上面的例子,S,O 类的错误会保留30天,而H的错误会保留90天

errclear 0 删除多有记录

errclear 7 删除7天以前的记录

smit errclear

syslogd

unix普遍用到的日志系统,配置文件/etc/syslog.conf

没有什么多说的,比较普遍,定义的话是修改syslog.conf,保存的日志为文本格式syslog.conf配置文件格式

信息类别.错误等级记录的位置

其中,各项的含义

信息类别

auth used by authorization systems (login)

cron used for the cron and at systems

daemon system/netword daemon

kern produced by kernel messages

lpr printing system

mail mail system

mark internally used for time stamps

news reserved for the news system

user default facility, used for any program

uucp reserved for the uucp system

错误等级

debug normally used for debugging

info informational messages

notice conditions that may require attention

Warning any warnings

err any errors

crit critical conditions like hardware problems

Alert any condition that demand immediate attention

emerg any emergency condition

none Do not send messages from the indicated f

acility to the selected file.

记录的位置

可以是本地的文件(包括设备文件如/dev/console)或远程syslog日志服务器。假如我要记录cron的所有错误信息,则可以在/etc/syslog.conf加入下面一行cron.err /var/cronerr.log

定义记录cron的err信息到/var/cronerr.log文件

进行AIX 的日常维护,需要关注哪些日志文件?

解答:

在进行AIX 的日常维护时,需关注的日志文件有:

文件

描述建议

core 和 snapcore 由应用产生的 dump 文件,可用于

可删除

诊断错误

nohup.out

nohup 命令的输出结果可删除

.xerrors X11的输出结果 可截短 mbox

用户邮箱中的邮件

可截短

smit.log 和 smit.script

用户使用smit 命令后的日志

可适当保留最后1000行,或删除

/var/adm/wtmp

记录用户的登录信息,是二进制文件, 用who 命令来阅读其内容 根据需要保留60天中有用的内容,其余删除

/etc/security/failedlogin 记录用户失败的登录信息,是二进制文件,用who 命令来阅读其内容 可根据需要保留60天中

有用的内容,其余删除 /var/adm/sulog 用户使用su 命令的日志

可根据需要保留60天中有用的内容,其余删除 /var/adm/cron/log

cron 的日志 可截短 /var/tmp/snmpd.log

snmp 监控进程日志

可截短

/var/tmp/dpid.log

/var/tmp/dpid2.log

/var/tmp/hostmidb.log /var/tmp/muxatmd snmp 子系统日志

可截短

dead.letter

未成功的邮件 可删除 trcfile trace

实用程序的输出

可删除

/var/adm/messages

用于记录syslog 进程的日志

可适当保留最后1000行,或删除

/etc/shutdown.log 系统关机过程日志,用shutdown -l 命令产生 可适当保留最后1000行,或删除

如何抓取网页数据,以抓取安居客举例

如何抓取网页数据,以抓取安居客举例 互联网时代,网页上有丰富的数据资源。我们在工作项目、学习过程或者学术研究等情况下,往往需要大量数据的支持。那么,该如何抓取这些所需的网页数据呢? 对于有编程基础的同学而言,可以写个爬虫程序,抓取网页数据。对于没有编程基础的同学而言,可以选择一款合适的爬虫工具,来抓取网页数据。 高度增长的抓取网页数据需求,推动了爬虫工具这一市场的成型与繁荣。目前,市面上有诸多爬虫工具可供选择(八爪鱼、集搜客、火车头、神箭手、造数等)。每个爬虫工具功能、定位、适宜人群不尽相同,大家可按需选择。本文使用的是操作简单、功能强大的八爪鱼采集器。以下是一个使用八爪鱼抓取网页数据的完整示例。示例中采集的是安居客-深圳-新房-全部楼盘的数据。 采集网站:https://https://www.wendangku.net/doc/1e14224141.html,/loupan/all/p2/ 步骤1:创建采集任务 1)进入主界面,选择“自定义模式”

如何抓取网页数据,以抓取安居客举例图1 2)将要采集的网址复制粘贴到网站输入框中,点击“保存网址”

如何抓取网页数据,以抓取安居客举例图2 步骤2:创建翻页循环 1)在页面右上角,打开“流程”,以展现出“流程设计器”和“定制当前操作”两个板块。将页面下拉到底部,点击“下一页”按钮,在右侧的操作提示框中,选择“循环点击下一页”,以建立一个翻页循环

如何抓取网页数据,以抓取安居客举例图3 步骤3:创建列表循环并提取数据 1)移动鼠标,选中页面里的第一个楼盘信息区块。系统会识别此区块中的子元素,在操作提示框中,选择“选中子元素”

如何抓取网页数据,以抓取安居客举例图4 2)系统会自动识别出页面中的其他同类元素,在操作提示框中,选择“选中全部”,以建立一个列表循环

AIX常用命令大全

AIX常用命令大全 查看交换区信息: lsps -a 显示交换区的分布信息 lsps -s 显示交换区的使用信息 slibclean 清除处理程序遗留的旧分页信息 smit mkps 建立交换区空间信息 swapon -a 启动所有的分页空间 /etc/swapspaces 存放分页空间表格信息 ------------------------------------------------- 显示卷信息: lsvg 显示卷的名称 lsvg -l rootvg 显示rootvg卷的详细信息 ------------------------------------------------- mount卷的方法: varyonvg datavg 加载datavg卷 mount /dev/data1 加载datavg下的一个data1卷 裸设备类型:raw,jfs jfs可以转变成文件系统,而raw则不行 ------------------------------------------------- 在裸设备上安装oracle系统: 修改裸设备的权限,如裸设备名为system01,安装数据库用户为oracle chown oracle:dba /dev/system01 chown oracle:dba /dev/rsystem01 在使用文件时必须用rsystem01 ------------------------------------------------- smit快速路径名称:(smit:图形方式,smitty:字符方式) dev 设备管理 diag 诊断 jfs 定期档案管理系统 lvm 逻辑卷册系统管理员管理 nfs NFS管理 sinstallp 软件安装及维护 spooler 列印队列管理 system 系统管理

AIX系统日志

1、系统错误日志 存放路径:/var/adm/ras/errlog 说明:该日志记录了系统所检测到的软硬件故障和错误,尤其对系统的硬件故障有很大的参考价值,是AIX提供的最有价值的日志之一,errlog 文件用more或者其他文本的查看命令来打开我们看到的只是一对乱码,为了能够查看错误日志文件需要使用aix的errpt命令,如:errpt 列信息;errpt –a列详细信息,详细使用方法可以参考man, 2、用户的登录日志 存放路径:/var/adm/wtmp /var/adm/sulog 说明:这些日志记录了用户登录和访问服务器的情况信息,具体的日志文件有wtmp、、sulog 等,它们记录的分别是不同的事件,wtmp记录的是历史的login和lognout信息,可以用last 命令访问。sulog记录的是用户用su命令转变为另一用户的信息。who、last等这些命令可以查看wtmp和sulog的内容 如:Last –f wtmp 我们想查看最近10次登录的用户和他们的地址,可以用如下命令: last -10 3、用户的失败登录日志 存放路径:/etc/security/failedlogin 说明:这些日志记录了用户登录和访问服务器失败的情况信息,登录失败的情况单独记录在该日志中,可以用who命令来查看。 4、集群管理软件hacmp的日志 存放路径:/tmp/hacmp.out 说明:HACMP是IBM提供的确保系统运行可靠性的集群套件,HACMP在每次启动和关闭时都要经历一段时间以停止服务和转换文件系统,我们可以通过对HACMP。OUT日志文

件的跟踪实时的了解HACMP在启动和关闭时的信息,如出现启动失败则可以帮助我们定位错误。 可以使用tail进行跟踪,tail –f /tmp/hacmp.out 5、系统启动错误日志 存放路径:/var/adm/ras/bootlog 说明:该日志可以跟踪系统在Boot过程中发生的问题,包括服务器液晶板上的代码信息都有记载。可以使用alog命令监视这些问题, 存放在/var/adm/ras/bootlog中,可以使用alog –o –t boot命令查看该文件。 6、FTP用户操作日志 存放路径:自定义(建议/tmp/ftplog.out) 说明:很多服务器都会用到FTP功能,大量的用户通过FTP登陆到服务器上给系统的安全性带来了很大的问题,AIX给我们提供了一套很不错的可以记录用户FTP操作情况的日志。具体设置步骤如下: 在/etc/inetd.conf文件中编辑FTP 一行,在FTPD后加“-d” 重启服务:refresh –s inetd touch /tmp/ftplog.out 在/etc/syslog.conf文件中加上两行: daemon:debug /tmp/ftplog.out daemon:info /tmp/ftplog.out 重启服务:refresh –s syslogd

网页抓取工具如何进行http模拟请求

网页抓取工具如何进行http模拟请求 在使用网页抓取工具采集网页是,进行http模拟请求可以通过浏览器自动获取登录cookie、返回头信息,查看源码等。具体如何操作呢?这里分享给大家网页抓取工具火车采集器V9中的http模拟请求。许多请求工具都是仿照火车采集器中的请求工具所写,因此大家可以此为例学习一下。 http模拟请求可以设置如何发起一个http请求,包括设置请求信息,返回头信息等。并具有自动提交的功能。工具主要包含两大部分:一个MDI父窗体和请求配置窗体。 1.1请求地址:正确填写请求的链接。 1.2请求信息:常规设置和更高级设置两部分。 (1)常规设置: ①来源页:正确填写请求页来源页地址。 ②发送方式:get和post,当选择post时,请在发送数据文本框正确填写发布数据。 ③客户端:选择或粘贴浏览器类型至此处。 ④cookie值:读取本地登录信息和自定义两种选择。 高级设置:包含如图所示系列设置,当不需要以上高级设置时,点击关闭按钮即可。 ①网页压缩:选择压缩方式,可全选,对应请求头信息的Accept-Encoding。 ②网页编码:自动识别和自定义两种选择,若选中自定义,自定义后面会出现编

码选择框,在选择框选择请求的编码。 ③Keep-Alive:决定当前请求是否与internet资源建立持久性链接。 ④自动跳转:决定当前请求是否应跟随重定向响应。 ⑤基于Windows身份验证类型的表单:正确填写用户名,密码,域即可,无身份认证时不必填写。 ⑥更多发送头信息:显示发送的头信息,以列表形式显示更清晰直观的了解到请求的头信息。此处的头信息供用户选填的,若要将某一名称的头信息进行请求,勾选Header名对应的复选框即可,Header名和Header值都是可以进行编辑的。 1.3返回头信息:将详细罗列请求成功之后返回的头信息,如下图。 1.4源码:待请求完毕后,工具会自动跳转到源码选项,在此可查看请求成功之后所返回的页面源码信息。 1.5预览:可在此预览请求成功之后返回的页面。 1.6自动操作选项:可设置自动刷新/提交的时间间隔和运行次数,启用此操作后,工具会自动的按一定的时间间隔和运行次数向服务器自动请求,若想取消此操作,点击后面的停止按钮即可。 配置好上述信息后,点击“开始查看”按钮即可查看请求信息,返回头信息等,为避免填写请求信息,可以点击“粘贴外部监视HTTP请求数据”按钮粘贴请求的头信息,然后点击开始查看按钮即可。这种捷径是在粘贴的头信息格式正确的前提下,否则会弹出错误提示框。 更多有关网页抓取工具或网页采集的教程都可以从火车采集器的系列教程中学习借鉴。

AIX常用命令

AIX常用命令目录指令 文件操作 选择操作

安全操作 编程操作 进程操作 时间操作 网络与通信操作 Korn Shell命令

其他命令 1 基本命令 pwd 查看当前目录 ls -a查看隐藏信息-l查看详细信息 cd 转到指定目录 mkdir 创建目录 mkdir –p 创建多级目录 rmdir 删除目录(不能删除当前目录或父目录且必须为空) rm -rf file 删除文件 clear 清屏 istat 查看文件i_node表的信息

touch 更新文件的访问和修改时间 date 列出当前日期时间 who 查看已登陆的用户 who am i 查看当前用户 su 切换用户 man 帮助 vi file 创建/编辑文件 exit 退出 cp source target 拷贝文件 mv source target 移动文件或重命名 cat 查看文件内容 compress -v file 压缩文件 uncompress file.z 解压文件 passwd 修改口令 shutdown -h now 立刻关机 shutdown -r now 关闭并立刻重启 reboot 重启 2 查看端口连接数命令 netstat -an | find /i "8000" /c Windows下查看8000端口的连接

netstat -an | grep 8000 Linux和Aix下查看8000端口的连接 netstat -an | grep 8000 |wc -l 自动统计linux和Aix端口号为8000的连接数 3 更改权限命令 chmod a-x myfile rw- rw- rw-收回所有用户的执行权限chmod og-w myfile rw-r--r--收回同组用户和其他用户的写权限 chmod g+w myfile rw- rw- r--赋予同组用户写权限chmod u+x myfile rwx rw-r--赋予文件属主执行权限(常用) chmod go+x myfile rwx rwx r-x 赋予同组用户和其他用户执行权限 4 拷贝文件命令 //远程目录拷贝到本地 scp cata@108.199.2.201:/home/cata/nmon/nmon /home/oracle/nmon //本地拷贝到远程目录

使用DBX分析AIX下的 CoreDump

使用DBX分析AIX 下的CoreDump PS: Where can you get dbx? It is part of bos.adt.debug # lslpp -w /usr/bin/dbx File Fileset Type ------------------------------------------- /usr/bin/dbx bos.adt.debug Symlink 以下转自https://www.wendangku.net/doc/1e14224141.html,/?6141/viewspace-18882 I core dump 分析入门 AIX专家俱乐部E ?!CR8Z#S)[ 环境变量设置 `#X`4\]9h|8]0 ;Uy%D]6sQ.i9O0 可以通过/etc/security/limits 文件对各用户的基本配置参数包括core 大小进行限制。或者通过ulimit 更改当前环境下的core 大小限制。AIX专家俱乐部vF?I9u:B1@]!HC c\!v_J-r)r3U0 默认情况下应用进程生成core dump 时都使用文件名core。为了避免同一工作目录下的进程core 相互覆盖可以定义环境变量CORE_NAMING=true然后启动进程这样将生成名为core.pid.ddhhmmss 的文件。可以使用file core 命令查看core 是哪个进程产生的。 :EvFu#O@$n*s)g0AIX专家俱乐部0U(p#k2_:J/} G"v$D.E 默认情况下应用进程dump 时会包含所有的共享内存如果dump 时想排除共享内存内容可以在启动进程之前设置环境变量CORE_NOSHM=true. R1I rjg0 9kkS%v!@6o0 系统有一个参数fullcore 用于控制是否在程序coredump 时生成完整的core。为避免信息丢失建议打开fullcore。可以使用lsattr –El sys0 查询是否将fullcore 打开使用chdev -l sys0 -a fullcore=true 将fullcore 状态更改为打开。也可以在程序内部调用sigaction 例程设置fullcore参考如下测试程序AIX专家俱乐部~*Pp~3Qi @4L3gNuy_0fullcore 设置示例AIX专家俱乐部n4m4E,c/{ ewz 8g|9zx9Gv'F0//test.CAIX专家俱乐部5D@)bx*?)F #include AIX专家俱乐部?&Q'NC!rB*ox #include BY@esPG0AIX专家俱乐部nAZ4@gzd7{(K int main(int argc, char* argv[])AIX专家俱乐部4s$Q0QY5j6N)?6Z,M/z { [-lfWBAL0 char str[10];AIX专家俱乐部J&Bo'CS5q struct sigaction s; azZqqo-oWO-f?0 s.sa_handler = SIG_DFL; AIX专家俱乐部t"?:[j h,jD s.sa_mask.losigs = 0;

如何抓取网页数据

https://www.wendangku.net/doc/1e14224141.html, 如何抓取网页数据 很多用户不懂爬虫代码,但是却对网页数据有迫切的需求。那么怎么抓取网页数据呢? 本文便教大家如何通过八爪鱼采集器来采集数据,八爪鱼是一款通用的网页数据采集器,可以在很短的时间内,轻松从各种不同的网站或者网页获取大量的规范化数据,帮助任何需要从网页获取信息的客户实现数据自动化采集,编辑,规范化,摆脱对人工搜索及收集数据的依赖,从而降低获取信息的成本,提高效率。 本文示例以京东评论网站为例 京东评价采集采集数据字段:会员ID,会员级别,评价星级,评价内容,评价时间,点赞数,评论数,追评时间,追评内容,页面网址,页面标题,采集时间。 需要采集京东内容的,在网页简易模式界面里点击京东进去之后可以看到所有关于京东的规则信息,我们直接使用就可以的。

https://www.wendangku.net/doc/1e14224141.html, 京东评价采集步骤1 采集京东商品评论(下图所示)即打开京东主页输入关键词进行搜索,采集搜索到的内容。 1、找到京东商品评论规则然后点击立即使用

https://www.wendangku.net/doc/1e14224141.html, 京东评价采集步骤2 2、简易模式中京东商品评论的任务界面介绍 查看详情:点开可以看到示例网址 任务名:自定义任务名,默认为京东商品评论 任务组:给任务划分一个保存任务的组,如果不设置会有一个默认组 商品评论URL列表:提供要采集的网页网址,即商品评论页的链接。每个商品的链接必须以#comment结束,这个链接可以在商品列表点评论数打开后进行复制。或者自己打开商品链接后手动添加,如果没有这个后缀可能会报错。多个商品评论输入多个商品网址即可。 将鼠标移动到?号图标可以查看详细的注释信息。 示例数据:这个规则采集的所有字段信息。

AIX常用的系统状态查询命令

AIX常用的系统状态查询命令 常用的系统状态查询命令: # lsdev –C –s scsi 列出各个SCSI设备的所有相关信息:如逻辑单元号,硬件地址及设备文件名等。# ps -ef 列出正在运行的所有进程的各种信息:如进程号及进程名等。 # netstat -rn 列出网卡状态及路由信息等。 # netstat -in 列出网卡状态及网络配置信息。 # df -k 列出已加载的逻辑卷及其大小信息。 # mount 列出已加载的逻辑卷及其加载位置。 # uname -a 列出系统ID 号,系统名称,OS版本等信息。 # hostname 列出系统网络名称。 # lsvg –l rootvg,lsvg –p rootvg 显示逻辑卷组信息,如包含哪些物理盘及逻辑卷等。 # lslv –l datalv,lslv –p datalv 显示逻辑卷各种信息,如包含哪些盘,是否有镜像等。 八网络故障定位方法 网络不通的诊断过程: ifconfig 查看网卡是否启动(up) netstat –i 查看网卡状态

Ierrs/Ipkts 和Oerrs/Opkts是否>1% ping自己网卡地址(ip 地址) ping其它机器地址,如不通,在其机器上用diag检测网卡是否有问题。 在同一网中,subnetmask 应一致。 网络配置的基本方法: (1) 如需修改网络地址、主机名等,一定要用chdev 命令 # chdev –l inet0 –a hostname=myhost # chdev -l en0 -a netaddr='9.3.240.58' -a netmask=255.255.255.0’ (2) 查看网卡状态:# lsdev –Cc if (3) 确认网络地址:# ifconfig en0 (4) 启动网卡:# ifconfig en0 up (5) 配置路由 有两种方式加入路由: 永久路由 # chdev -l inet0 -a route=’10.47.0.0’,’9.3.240.59’ 临时路由 # route add 10.47.1.2 9.3.240.59 用命令netstat -rn 查看路由表

国内主要信息抓取软件盘点

国内主要信息抓取软件盘点 近年来,随着国内大数据战略越来越清晰,数据抓取和信息采集系列产品迎来了巨大的发展 机遇,采集产品数量也出现迅猛增长。然而与产品种类快速增长相反的是,信息采集技术相 对薄弱、市场竞争激烈、质量良莠不齐。在此,本文列出当前信息采集和数据抓取市场最具 影响力的六大品牌,供各大数据和情报中心建设单位采购时参考: TOP.1 乐思网络信息采集系统 乐思网络信息采系统的主要目标就是解决网络信息采集和网络数据抓取问题。是根据用户自定义的任务配置,批量而精确地抽取因特网目标网页中的半结构化与非结构化数据,转化为结构化的记录,保存在本地数据库中,用于内部使用或外网发布,快速实现外部信息的获取。 主要用于:大数据基础建设,舆情监测,品牌监测,价格监测,门户网站新闻采集,行业资讯采集,竞争情报获取,商业数据整合,市场研究,数据库营销等领域。 TOP.2 火车采集器 火车采集器是一款专业的网络数据采集/信息挖掘处理软件,通过灵活的配置,可以很轻松迅速地从网页上抓取结构化的文本、图片、文件等资源信息,可编辑筛选处理后选择发布到网站后台,各类文件或其他数据库系统中。被广泛应用于数据采集挖掘、垂直搜索、信息汇聚和门户、企业网信息汇聚、商业情报、论坛或博客迁移、智能信息代理、个人信息检索等领域,适用于各类对数据有采集挖掘需求的群体。 TOP.3 熊猫采集软件 熊猫采集软件利用熊猫精准搜索引擎的解析内核,实现对网页内容的仿浏览器解析,在此基础上利用原创的技术实现对网页框架内容与核心内容的分离、抽取,并实现相似页面的有效比对、匹配。因此,用户只需要指定一个参考页面,熊猫采集软件系统就可以据此来匹配类似的页面,来实现用户需要采集资料的批量采集。 TOP.4 狂人采集器 狂人采集器是一套专业的网站内容采集软件,支持各类论坛的帖子和回复采集,网站和博客文章内容抓取,通过相关配置,能轻松的采集80%的网站内容为己所用。根据各建站程序

AIX操作系统错误日志及日常维护

AIX操作系统错误日志及日常维护 一、系统故障记录(errorlog) errdemon 进程在系统启动时自动运行 记录包括硬件软件及其他操作信息 故障记录文件为/var/adm/ras/errlog 可备份下来或拷贝到别的机器上分析 errpt 命令的使用(普通用户权限也可使用) #errpt |more 列出简短出错信息 ERROR_ID TIMESTAMP T C RESOURCE_NAME ERROR_DESCRIPTION 192AC071 0723100300 T 0 errdemon Error logging turned off 0E017ED1 0720131000 P H mem2 Memory failure 9DBCFDEE 0701000000 T 0 errdemon Error logging turned on 038F2580 0624131000 U H scdisk0 UNDETERMINED ERROR AA8AB241 0405130900 T O OPERATOR OPERATOR NOTIFICATION TIMESTAMP: MMDDHHMMYY (月日时分年 T 类型: P 永久; T 临时; U 未知永久性的错误应引起重视 C 分类: H 硬件; S 软件; O 用户; U未知 #errpt -d H 列出所有硬件出错信息 #errpt -d S 列出所有软件出错信息 #errpt -aj ERROR_ID 列出详细出错信息 # errpt -aj 0502f666 <--- ERROR_ID用大小写均可,例: LABEL: SCSI_ERR1 ID: 0502F666 Date/Time: Jun 19 22:29:51 Sequence Number: 95 Machine ID: 123456789012 Node ID: host1 Class: H Type: PERM Resource Name: scsi0 Resource Class: adapter Resource Type: hscsi Location: 00-08 VPD: <--- Virtal Product Data Device Driver Level (00) Diagnostic Level (00) Displayable Message.........SCSI EC Level....................C25928 FRU Number..................30F8834 Manufacturer................IBM97F Part Number.................59F4566 Serial Number (00002849) ROS Level and ID (24) Read/Write Register Ptr (0120)

国内主要数据采集和抓取工具

国内6大网络信息采集和页面数据抓取工具 近年来,随着国内大数据战略越来越清晰,数据抓取和信息采集系列产品迎来了巨大的发展机遇,采集产品数量也出现迅猛增长。然而与产品种类快速增长相反的是,信息采集技术相对薄弱、市场竞争激烈、质量良莠不齐。在此,本文列出当前信息采集和数据抓取市场最具影响力的六大品牌,供各大数据和情报中心建设单位采购时参考: TOP.1 乐思网络信息采集系统(https://www.wendangku.net/doc/1e14224141.html,) 乐思网络信息采系统的主要目标就是解决网络信息采集和网络数据抓取问题。是根据用户自定义的任务配置,批量而精确地抽取因特网目标网页中的半结构化与非结构化数据,转化为结构化的记录,保存在本地数据库中,用于内部使用或外网发布,快速实现外部信息的获取。 该系统主要用于:大数据基础建设,舆情监测,品牌监测,价格监测,门户网站新闻采集,行业资讯采集,竞争情报获取,商业数据整合,市场研究,数据库营销等领域。 TOP.2 火车采集器(https://www.wendangku.net/doc/1e14224141.html,) 火车采集器是一款专业的网络数据采集/信息挖掘处理软件,通过灵活的配置,可以很轻松迅速地从网页上抓取结构化的文本、图片、文件等资源信息,可编辑筛选处理后选择发布到网站后台,各类文件或其他数据库系统中。被广泛应用于数据采集挖掘、垂直搜索、信息汇聚和门户、企业网信息汇聚、商业情报、论坛或博客迁移、智能信息代理、个人信息检索等领域,适用于各类对数据有采集挖掘需求的群体。 TOP.3 熊猫采集软件(https://www.wendangku.net/doc/1e14224141.html,) 熊猫采集软件利用熊猫精准搜索引擎的解析内核,实现对网页内容的仿浏览器解析,在此基础上利用原创的技术实现对网页框架内容与核心内容的分离、抽取,并实现相似页面的有效比对、匹配。因此,用户只需要指定一个参考页面,熊猫采集软件系统就可以据此来匹配类似的页面,来实现用户需要采集资料的批量采集。 TOP.4 狂人采集器(https://www.wendangku.net/doc/1e14224141.html,) 狂人采集器是一套专业的网站内容采集软件,支持各类论坛的帖子和回复采集,网站和博客文章内容抓取,通过相关配置,能轻松的采集80%的网站内容为己所用。根据各建站程序的区别,狂人采集器分论坛采集器、CMS采集器和博客采集器三类,总计支持近40种主流建站程序的上百个版本的数据采集和发布任务,支持图片本地化,支持网站登陆采集,分页抓取,全面模拟人工登陆发布,软件运行快速安全稳定!论坛采集器还支持论坛会员无限注册,自动增加帖子查看人数,自动顶贴等。 TOP.5 网络神采(https://www.wendangku.net/doc/1e14224141.html,) 网络神采是一款专业的网络信息采集系统,通过灵活的规则可以从任何类型的网站采集信息,

AIX常用的性能监控命令

AIX常用的性能监控命令 2009-07-24 10:38 机器性能优化主要从四个方面去考虑:CPU,内存,磁盘I/O,网络。 1, CPU sar命令 可以使用sar命令来查看cpu的使用率。 ibm150:[/]#sar 1 5 AIX ibm150 1 5 000AF70D4C00 01/24/06 13:13:25 %usr %sys %wio %idle 13:13:26 0 0 0 100 13:13:27 0 0 0 100 13:13:28 0 0 0 100 13:13:29 0 0 0 100 13:13:30 0 0 0 100 Average 0 0 0 100 %usr + %sys > 80% 的时候 CPU将是瓶颈 ibm150:[/]#ps aux | head -4 查看前3位占用cpu的进程USER PID %CPU %MEM SZ RSS TTY STAT STIME TIME COMMAND

root 774 49.7 8.0 12 18052 - A 10:07:58 188:24 wait root 516 49.7 8.0 12 18052 - A 10:07:58 188:20 wait root 5688 0.1 0.0 164 168 - A 10:09:13 0:21 /usr/sbin/syncd 6 %CPU表示进程使用cpu时间的百分比;%MEM表示进程使用实际内存的百分比 ps –elf 命令 将查看进程的优先级别 ibm150:[/]#ps -elf F S UID PID PPID C PRI NI ADDR SZ WCHAN STIME TTY TIME CMD 200003 A root 1 0 0 60 20 28034 1876 10:08:23 0:00 /etc/init 240401 A root 2968 4502 0 60 20 2c376 2176 * 10:10:230:00 /usr/sbin/rsct/bin/IBM.ServiceRMd 40001 A root 3192 1 0 60 20 3417a 1472 10:09:00 - 0:00 /usr/dt/bin/dtlogin -daemon 240001 A root 3730 4158 3 61 20 321b9 2568 10:10:19 - 0:20 dtgreet PRI值越小,优先级越大。

AIX命令手册

系统的配置 PV(physical volume)物理卷:普通的直接访问的存储设备,有固定的和可移动的之分,代表性的就是硬盘。 VG(volume group)卷组:AIX中最大的存储单位,一个卷组由一组物理硬盘组成,也就是由一个或多个物理卷组成。 PP(physical partition)物理分区:是把物理卷划分成连续的大小相等的存储单位,一个卷组中的物理分区大小都相等。 LP(logical partition)逻辑分区:适映射物理分区的逻辑单位,一个逻辑分区可以对应一个也可以对应多个物理分区。 LV(logical volume)逻辑卷:是指卷组中由多个逻辑分区组成的集合,逻辑卷中的逻辑分区是连续的,但是对应的物理分区是不连续的,可以在一个磁盘上,也可以在不同的磁盘上。 FS(file system)文件系统:是指在AIX系统中面向用户的存储空间。一个逻辑卷只能创建一个文件系统,也就是说一个文件系统对应一个逻辑卷,如果删除逻辑卷也将删除文件系统。

配置hd6 #smitty chps#lsvg rootvg(PP)#lsps –a(size)(特定的值—size)/pp=128—当前所用的值 修改时区时间#smitty chtz_date 关机重启#shutdown -Fr重启#shutdown -F关机 修改网关#smitty route 编辑limits #vi /etc/security/limits 编辑hosts #vi /etc/hosts 切换用户#su tianhao 修改TCP/IP #smitty tcpip 安装软件#smitty installp 安装数据库软件包PerfTools 补丁bos.adt, bos.data,https://www.wendangku.net/doc/1e14224141.html,,https://www.wendangku.net/doc/1e14224141.html,pat,bos.cifs_fs, rsct.basic,bos.dosu (https://www.wendangku.net/doc/1e14224141.html,pat.basic,https://www.wendangku.net/doc/1e14224141.html,pat.clients,rsct.opt.storagem,bos.clvm)为HA补丁查看系统版本#Oslevel –r #oslevel –s 图形界面#smit easy_install 安装文件X11 DT 安装包CDE 启动图形界面#cd /etc #./rc.dt 安装HACMP(doc ha ha nfs不安装)#lslpp -l |grep cluster版本修改系统最大进程数#smitty chgsys 语言环境#smit mlang 安装文件zh_cn gb18030中文 添加文件系统#smitty jfs2 修改文件系统#chfs –a size=10G /usr df –g chfs –a size=2G / (/home /usr /var /tmp /dev /etc /其他)文件系统lsvg rootvg 活动空间free 配置AIO #smit chgaio available 数据库

AIX系统日志

AIX系统日志说明 1、系统错误日志 存放路径:/var/adm/ras/errlog 说明:该日志记录了系统所检测到的软硬件故障和错误,尤其对系统的硬件故障有很大的参考价值,是AIX提供的最有价值的日志之一, errlog 文件用more或者其他文本的查看命令来打开我们看到的只是一对乱码,为了能够查看错误日志文件需要使用aix的errpt命令,如:errpt 列信息;errpt –a列详细信息,详细使用方法可以参考man, 2、用户的登录日志 存放路径:/var/adm/wtmp /var/adm/sulog 说明:这些日志记录了用户登录和访问服务器的情况信息,具体的日志文件有wtmp、、sulog 等,它们记录的分别是不同的事件,wtmp记录的是历史的login和lognout信息,可以用last命令访问。sulog记录的是用户用su命令转变为另一用户的信息。who、last等这些命令可以查看wtmp和sulog的内容 如:Last –f wtmp 我们想查看最近10次登录的用户和他们的地址,可以用如下命令: last -10 3、用户的失败登录日志 存放路径:/etc/security/failedlogin 说明:这些日志记录了用户登录和访问服务器失败的情况信息,登录失败的情况单独记录在该日志中,可以用who命令来查看。 4、集群管理软件hacmp的日志

存放路径:/tmp/hacmp.out 说明:HACMP是IBM提供的确保系统运行可靠性的集群套件,HACMP在每次启动和关闭时都要经历一段时间以停止服务和转换文件系统,我们可以通过对HACMP。OUT日志文件的跟踪实时的了解HACMP在启动和关闭时的信息,如出现启动失败则可以帮助我们定位错误。 可以使用tail进行跟踪,tail –f /tmp/hacmp.out 5、系统启动错误日志 存放路径:/var/adm/ras/bootlog 说明:该日志可以跟踪系统在Boot过程中发生的问题,包括服务器液晶板上的代码信息都有记载。可以使用alog命令监视这些问题, 存放在/var/adm/ras/bootlog中,可以使用alog –o –t boot命令查看该文件。 6、FTP用户操作日志 存放路径:自定义(建议/tmp/ftplog.out) 说明:很多服务器都会用到FTP功能,大量的用户通过FTP登陆到服务器上给系统的安全性带来了很大的问题,AIX给我们提供了一套很不错的可以记录用户FTP操作情况的日志。 具体设置步骤如下: 在/etc/inetd.conf文件中编辑 FTP 一行,在FTPD后加“-d” 重启服务: refresh –s inetd touch /tmp/ftplog.out 在/etc/syslog.conf文件中加上两行: daemon:debug /tmp/ftplog.out daemon:info /tmp/ftplog.out

大数据抓取工具推荐

https://www.wendangku.net/doc/1e14224141.html, 大数据抓取工具推荐 大数据已经成了互联网时代最热门的词之一,采集器也成了数据行业人人都需要的工具。作为一个不会打代码的小白,如何进行数据采集呢?市面上有一些大数据抓取工具。八爪鱼和造数就是其中两款采集器,对于不会写爬虫代码的朋友来说,找到一款合适的采集器,可以达到事半功倍的效果。本文就两款采集器的优缺点做一个对比,仅供大家参考。 造数是一个基于云端爬取的智能云爬虫服务站点,通过一套网页分析的算法,分析出网页中结构化的数据,然后再爬取页面中的数据,无需编程基础,只需输入网址,选取所需的数据,就可轻松获取互联网的公开数据,并以 Excel 表格等形式下载,或使用 API 与企业内部系统深度整合。 造数有什么优缺点呢? 优点: 云端采集网页,不需要占用电脑资源下载软件 采集到数据以后可以设置数据自动推送 缺点: 1、不支持全自动网站登录采集,也不支持本地采集,采集比较容易受到限制 2、不能采集滚动页面,最多支持两个层级的采集,采集不是很灵活 然后我们看一下八爪鱼 八爪鱼是非常适合技术小白的一款采集器,技术比较成熟,功能强大,操作简单。八爪鱼采集器的各方面的功能都比较完善,云采集是它的一大特色,相比其他采集软件,云采集能够做到更加精准、高效和大规模。还有识别验证码、提供优质代理IP 、UA 自动切换等智能防封的组合功能,在采集过程都不用担心网站的限制。如果不想创建采集任务,可以到客户端直接使用简易采集模式,选择模板,设置参数马上就可以拿到数据。

https://www.wendangku.net/doc/1e14224141.html, 八爪鱼有什么优缺点呢? 1、功能强大。八爪鱼采集器是一款通用爬虫,可应对各种网页的复杂结构(瀑布流等)和防采集措施(登录、验证码、封IP),实现百分之九十九的网页数据抓取。 2、入门容易。7.0版本推出的简易网页采集,内置主流网站大量数据源和已经写好的采集规则。用户只需输入关键词,即可采集到大量所需数据 3、流程可视化。真正意义上实现了操作流程可视化,用户可打开流程按钮,直接可见操作流程,并对每一步骤,进行高级选项的设置(修改ajax/ xpath等)。 缺点: 1、不能提供文件托管,不能直接发布采集到的数据 2、不支持视频和app采集 相关链接: 八爪鱼使用功能点视频教程 https://www.wendangku.net/doc/1e14224141.html,/tutorial/videotutorial/videognd 八爪鱼爬虫软件入门准备 https://www.wendangku.net/doc/1e14224141.html,/tutorial/xsksrm/rmzb

AIX系统常用的命令

AIX系统常用的命令 1、系统性能 (1)看CPU个数#lsdev -C|grepproc#几条记录就是几个CPU (注意考虑AIX 5.3的SMP) (2)看每个CPU的大小#lsattr -El proc0 (3)看内存条数#lsdev -C|grepmem (4)看内存大小#lsattr -El mem0 (5)看硬盘#lsdev -Cc disk (6)查看系统性能#top 或 #topas 2、系统重启:#shutdowm -Fr 3、配网址和路由 (1)配置网址 #smittytcpip #ifconfig en0 netmask 255.255.255.0 up (2)配置路由: #route add 0 200.3.0.254 4、如何确定一个文件系统是大文件系统? #lsfs -q /home注意如果输出:bf:true证明此文件系统为大文件系统。

5、/etc/inittab中的环境变量只引用/etc/enviormant文件中的设置,其余的如/etc/profile,/.profile中的不引用。 6、磁带机的相关操作: tctlfsf 1 tctlbsf 1 dd if=/temp1 pf=/dev/rmt1 tctl -f /dev/rmt1 rewind tctl -f /dev/rmt1 offline tapeutil -f /dev/rmt1 unmount 2 tapeutil -d /dev/rmt1 mount 2 7、查看硬盘的大小 lspv hdisk4 or lspv -p hdisk3 8、查看操作系统的版本 oslevel -r可以查看AIX当前版本和ML(维护层次), 也可以使用# instfix |grep ML 9、查看Os的bit 1 local364or bootinfo -y

百度贴吧内容抓取工具-让你的网站一夜之间内容丰富

百度贴吧内容抓取工具-让你的网站一夜之间内容丰富 [hide] 百度帖吧内容抓取工具

var $getreplytime=1; var $showimg=1; var $showcon=1; var $showauthor=1; var $showreplytime=1; var $showsn=0; var $showhr=0; var $replylista=array(); var $pat_reply="<\/a>(.+?)


<\/td>\r\n<\/tr><\/table>"; var $pat_pagecount="尾页<\/font><\/a>"; var $pat_title="(.+?)<\/font>"; var $pat_replycon="<\/td>\r\n\r\n
(.+?)<\/td><\/tr><\/table>\r\n<\/td><\/tr>"; var $pat_author="作者:(?:|)(.+?)(?:<\/a>|) \r\n"; var $pat_img=""; var $pat_replytime=" ([0-9]{1,4}-[0-9]{1,2}-[0-9]{1,2} [0-9]{1,2}:[0-9]{1,2})+ <\/font>"; var $defaulturl="https://www.wendangku.net/doc/1e14224141.html,/f?kz=87576027"; function import(){ $this->setconfig(); if(isset($_POST["act"])){ $this->getconfig(); $this->showform(); $this->act(); }else{ $this->showform(); } } function setconfig(){ $this->url=isset($_POST["url"])?$_POST["url"]this->defaulturl; $this->url=eregi_replace("[&]?pn=([0-9]+)","",$this->url); $this->beginpage=isset($_POST["beginpage"])?$_POST["beginpage"]:0; $this->endpage=isset($_POST["endpage"])?$_POST["endpage"]:50; $this->endpage=min($this->maxpagecount,$this->endpage); $this->timeout=min(isset($_POST["timeout"])?$_POST["timeout"]:30,$this->maxtimeout); $this->showimg=isset($_POST["showimg"])?$_POST["showimg"]:1; $this->showcon=isset($_POST["showcon"])?$_POST["showcon"]:1; $this->showauthor=isset($_POST["showauthor"])?$_POST["showauthor"]:0; $this->showreplytime=isset($_POST["showreplytime"])?$_POST["showreplytime"]:0; $this->showhr=isset($_POST["showhr"])?$_POST["showhr"]:1; $this->showsn=isset($_POST["showsn"])?$_POST["showsn"]:0;