;用了fastcgi,对于系统来说也是一个很高的负载。 而且对于AWStats统计来说:即使是404请求,也是计算到来访的独立用户的,这样会造成很多误差:比如去年10月份的统计,很难想想来自于那些国外机房(美国,日本,丹麦)的流量居然占了top 10 IP来源中的9个,让这个TOP 10 IP来源完全失去了意义。404 Document Not Found 276101 95.2 % 1.43 G字节
过滤了404也只是相对接近真实了一点:仍然有大量用于发现trackback侦察机在抓取:主机 (前 10) - 全部列出 - 最近参观日期 - 无法反解译的IP地址 主机 : 0 个解译成功, 164470 无法得知(不能反解网域名称) 119778 参观者 GeoIP Country GeoIP City 网页数 文件数 字节 最近参观日期 38.98.120.69 United States Washington 9207 9308 438.99 M字节 2006年 10月 31日 23:58 8.11.2.79 United States 无法得知 8961 9058 267.84 M字节 2006年 10月 11日 04:13 220.181.18.77 China Beijing 1278 1278 31.18 M字节 2006年 10月 31日 18:59 61.12.159.237 Japan Kami-meguro 1081 1324 24.45 M字节 2006年 10月 29日 10:44 82.103.132.52 Denmark 无法得知 744 744 9.96 M字节 2006年 10月 31日 03:27 61.149.109.88 China Beijing 734 939 22.79 M字节 2006年 10月 03日 01:25 72.21.39.242 United States Frisco 684 710 17.87 M字节 2006年 10月 31日 10:16 220.189.213.3 China Hangzhou 528 11357 31.71 M字节 2006年 10月 31日 20:54 209.67.217.226 United States Dallas 515 515 12.11 M字节 2006年 10月 31日 23:31 64.27.19.254 United States Los Angeles 508 800 52.20 M字节 2006年 10月 31日 23:37
解决方法:在awstats.chedong.conf文件中增加过滤文件配置 1 SkipFiles,过滤所有cgi-bin/mt目录下的访问请求; 2 SkipUserAgents 过滤trackback的空UA侦察机; 配置样例:58.25.99.171 China Shanghai 383 536 11.04 M字节 2007年 5 月 02日 23:23 222.210.108.237 China Beijing 263 263 2.15 M字节 2007年 5 月 02日 16:49 69.46.20.87 United States Tampa 162 162 4.18 M字节 2007年 5 月 02日 22:51 66.232.114.68 United States Tampa 152 152 4.12 M字节 2007年 5 月 02日 09:50 69.46.16.231 United States Tampa 146 146 3.86 M字节 2007年 5 月 02日 23:59 66.232.112.56 United States Tampa 110 110 2.99 M字节 2007年 5 月 02日 00:53 206.51.229.7 United States Tampa 110 110 2.87 M字节 2007年 5 月 02日 01:16 66.98.228.48 United States Houston 100 100 2.29 M字节 2007年 5 月 02日 01:16 201.226.51.7 Panama 无法得知 99 129 2.47 M字节 2007年 5 月 01日 11:48 216.246.78.191 United States Chicago 94 94 4.19 M字节 2007年 5 月 02日 23:53
真实的数字:比绝对值更重要。 关闭了trackback后如何统计来源呢:利用搜索引擎的blogsearch的link:example.com明令是一个比较好的方法。SkipFiles="REGEX[^/cgi-bin/mt/]" SkipUserAgents="-"