Friendly
基于ID的分片机制实现存储的分布化会遇到一个问题:固定存储空间随着时间增加再次达到系统的空间/负载的瓶颈。观察了一下Flickr的图片存储地址:好像是在定期启用新的集群,各个时期的域名分布如下:
[farm1.static.flickr.com] 2006年中以前;
[farm2.static.flickr.com] 2006年底;
[farm3.static.flickr.com] 2007年底;
[farm4.static.flickr.com] 2008年底;
user_foo - farm1.static....../20060124_003.jpg
farm1.static....../20060324_005.jpg
farm1.static....../20060824_021.jpg
farm2.static....../20070124_006.jpg
farm3.static....../20080124_002.jpg
farm4.static....../20081124_001.jpg
另外如果希望前端存储使用的域名一直保持不变,通过目录规则进行rewrite的方式也是可以的,比如:将要发布的内容,后端按时间建立一个域名进行存储;
200711.foo.example.com
200712.foo.example.com
200801.foo.example.com
...
200811.foo.example.com
foo.example.com/200711/ >> 200711.foo.example.com
foo.example.com/200712/ >> 200712.foo.example.com
...
foo.example.com/200811/ >> 200811.foo.example.com

车东@FlickR posted a photo:
更多精彩记录:
cityphoto.blogbus.com/
博客大巴的品牌之道:跨界。倾城
weiwuhui.com/949.html
“大同·视界”你我的努力
xnet.blogbus.com/logs/31383655.html
纠结了2个月的摄影展结束了
jeffs.blogbus.com/logs/31371825.html
我的眼神背叛了我的心
xialei.blogbus.com/logs/31371884.html
【大同·视界】摄影展酒会掠影
carefen.blogbus.com/logs/31369743.html
我们的摄影展
hengge.blogbus.com/logs/31367797.html
久违的周六
flowerfei.com/20081115/saturday.html
Phase 2 : Now process new records (Flush history on disk after 20000 hosts)...
Flush history file on disk (unique url reach flush limit of 5000)
Flush history file on disk (unique url reach flush limit of 5000)
Flush history file on disk (unique url reach flush limit of 5000)
是AWStats统计常见的输出,每行都是在处理完一定数量的URL(缺省是5000个)后,AWStats将统计结果临时写入磁盘。最近使用AWStats处理百M级别的日志时:磁盘IO居然非常高,
发现有时候遇到页面URL个数非常多的时候(比如:在搜索引擎蜘蛛对网站进行深度遍历deep crawl时),经常会使得AWStats对缓存文件的读写过于频繁,随着生成的数据文件越来越大,每次几百M的临时文件读写也会导致统计速度越来越慢;经常一次统计数据下来会Flush history file on disk (unique url reach flush limit of 5000) 几百次;
记得以前是对AWStats进行过简单的参数配置的,可以修改flush的周期,但现在的文档中没有找到相应的配置,只好Hack了一下:awstats.pl文件将每隔发现5千个新链接改为5万个;
> $LIMITFLUSH=5000; # Nb of records in data arrays after how we need to flush data on disk
---
< $LIMITFLUSH=50000; # Nb of records in data arrays after how we need to flush data on disk
更新后的AWStats最新版本lib目录打包下载,蜘蛛定义部分增加了区分Yahoo!中国,Soso 豆瓣,鲜果等,其他的是几个国外的RSS阅读器;搜索引擎部分区分了百度图片,有道搜索,soso搜索; diff附后:
上周又召集上海互联网小业主做了一次山寨技术交流会,前3次都是博客大巴做东; 这次的一个主题由Sun的工程师向我们介绍了:Web20kit,并征求反馈意见;
觉得对于小网站来说: 最需要的是以下几类技术/服务
1 可扩展的存储硬件或服务:目前大部分公司还是用nfs+盘阵的模式做存储,在备份/容量扩展方面,很多都是需要结合应用修改来实现的,如果Sun能在国内做Amazon S3那样的存储中心,我们还是信得过的;
2 全文检索Lucene应用包: 对于很多以PHP为主要开发工具的小公司来说,只是为了lucene掌握java成本还是比较高的,之前我尝试过XML接口,现在感觉有一个Json in / Json out的方案也是会很有用的;
3 关键词过滤引擎: 其实旁路监听,动态屏蔽的模式已经是非常先进的理念了,昨天见了一次Rebecca,过滤需求其实是非常有中国特色的;
4 系统安全检查咨询:FABAN能否扩展为一个安全漏洞检查工具?安全的检查也是我们非常关心的;
5 MySQL 急救中心: 大部分网站出了数据库问题的时候已经没有时间学tracking tool了,SUN的工程师赶快过来吧,如果最后能解决1500¥/小时也是有市场的;
大部分web引用统计系统都实现了基于站内的点击行为分析,但是对于点出到其他网站的链接,由于点出链接地址不一定都部署了相通的统计。那么这些点击行为就要在链接所在的页面在点击的时候触发统计了。传统的是中间转向页面,但这样的链接机制非常不利于SEO,给蜘蛛带来了大量的麻烦用于识别真正的目标地址;之前介绍过一些基于鼠标触发机制的页面点出统计方法: 一般是通过在点击的时候触发在当前页面插入一个 img bean,然后统计相应的img 请求实现,现在连这样的点击触发器在Google Analytics统计中也可以自定义实现了: 以下例子在页面点击的时候,会触发Google Analytics生成一个对clickto/TAGET_URL 一个自定义的地址(clickto实际上不存在的)请求访问;
<script type="text/javascript">
var gaJsHost = (("https:" == document.location.protocol) ? "https://ssl." : "http://www.");
document.write("<script src='" + gaJsHost + "google-analytics.com/ga.js' type='text/javascript'></script>" );
</script>
<script type="text/javascript">
var pageTracker = _gat._getTracker("UA-69476-1");
pageTracker._addOrganic("baidu","word");
pageTracker._addOrganic("soso","q");
pageTracker._addOrganic("vnet","kw");
pageTracker._addOrganic("yodao","q");
pageTracker._initData();
pageTracker._trackPageview();
document.onclick = function(e) {
e = e || event;
var el = e.target || e.srcElement;
if ( el.tagName=='A' ) {
pageTracker._trackPageview("/clickto/" + window.location.href.replace("http://www.chedong.com/", "") +
el.href.replace("http://", "/"));
}
}
</script>

感谢XD同学,这个点出统计例子从very.cd上学到的;
一个好的例子胜过长篇大论,可以看到very.cd通过对onclick的触发机制,结合站内的cookie等还实现了客户回访率统计等;

车东@FlickR posted a photo:
截止到8月17日上午11点整,最新请参考:
2008games.nytimes.com/olympics/medals.asp
注意:中国和法国的奖牌构成,是距离33%最大的;
与中国今年的表现形成天壤之别的是1976年奥运会的东道主加拿大,当时该国赢得的11块奖牌中没有一块金牌。(那次的“零金牌”还不是最令人吃惊的,1952年的芬兰奥运会上,德国获得了24块奖牌,没有一块是金牌。)
中国的“奥运淘金热”与中国以及世界上大部分国家偏爱的奥运霸主衡量标准相一致:金牌的数量。美国可以称在奥运会上得了第一名,因为它的奖牌总数第一。如果形势继续这样发展下去的话,那么将会出现有史以来第四次奥运奖牌榜和金牌榜第一不一致的情况。具有讽刺意味的是,前三次都是美国金牌数第一,然而它却在自己偏爱的奖牌榜上未获头名(1896年、1912年和1964年)。来源:chinese.wsj.com/gb/20080821/fea114544.asp
对比数字:
第18届奥运会 东京 奖牌榜
国家或地区 金牌 银牌 铜牌 总计
美国 36 26 28 90
苏联(前) 30 31 35 96
日本 16 5 8 29
德国 10 22 18 50
意大利 10 10 7 27
匈牙利 10 7 5 22
波兰 7 6 10 23
澳大利亚 6 2 10 18
捷克斯洛伐克(前) 5 6 3 14
第20届奥运会 慕尼黑 奖牌榜
1 苏联(前) 50 27 22 99
2 美国 33 31 30 94
3 民主德国(前) 20 23 23 66
4 联邦德国 13 11 16 40
5 日本 13 8 8 29
6 澳大利亚 8 7 2 17
7 波兰 7 5 9 21
8 匈牙利 6 13 16 35
9 保加利亚 6 10 5 21
10 意大利 5 3 10 18
11 瑞典 4 6 6 16
12 英国 4 5 9 18
13 罗马尼亚 3 6 7 16
14 芬兰 3 1 4 8
15 古巴 3 1 4 8
16 荷兰 3 1 4 8
17 法国 2 4 7 13
18 捷克斯洛伐克(前) 2 4 2 8
19 肯尼亚 2 3 4 9
20 南斯拉夫(前) 2 1 2 5

车东@FlickR posted a photo:
最近加入了不少技术讨论组,群名片都是建议用真实姓名@公司名这样格式的;最早在99年的时候,收到过朋友的邮件中看到签名有这样的。 所以把MSN姓名改成了,“车东@博客大巴“ 的确减少了很多自我介绍的麻烦。
前几天我给几个做开发的朋友发了个消息,请他们帮我再次在Google Reader中共享了一篇旧招聘启事,可能他们的Gtalk好友都在Google Reader中看到了。
一篇文章在Google Reader中的确有过时很快的现象,超过1天后可能就被一片被淹没到数百篇未读文章列表后面了。而被好友较多的Blogger分享的时候还会带来一些新的阅读和传播机会;所以Google Reader的好友推荐是这个新的传播渠道已经被很多人运用的很好了,因为大部分人还不知道如何退订Gtalk好友的分享(难道要删除好友?) 也有很多朋友( 比如Fenng)采取在发表文章几天后自我推荐的方法再次“提醒”自己的好友。
Google Reader的LifeStream机制:
其实Google真的没有必要收购digg的: Google Reader中的共享(收藏可以看作是匿名digg)已经是一个很好的内容推荐来源;
和DIGG相比: 缺少的是一个加注释/评论功能和一个频道聚合首页;
Google Reader更容易和GTalk组合起来的,如果有个给”XXX分享“:在线回复的接口可以增加更多交互和反馈;
炒作者,自己抢料备料再煞有介事地爆料于各色传媒,以达吸引眼球之目的。此中的料有以假为真有以真为假更有假作真时真亦假真作假时假亦真,于是真真假假假假真真整得受众们扑朔迷离心生痛恨,几乎要把所有的有枪稿嫌疑的企业新闻一棒子打死:你炒,我让你Y炒……
嗯,这就成就了一批网民,名其曰:炒作风潮下的惊弓之鸟。一旦有事,难辨真假,怒火猛腾,拍案而起。俺得承认,有时候,俺也是这些鸟儿中的一只。
某日,本鸟看到一则新闻,说聚友网(前Myspace中国)时有个特工,赤裸的,还是个女的!不由得呼吸急促目露精光,赶紧驱动鼠标点开页面,逐张图片细细鉴定,直搞得本鸟面色绯红额间细汗微微而止。嗯,不愧是特工,裸得不错,该裸!
也不知咋回事,有那么好长时间,俺一看到某网站上有裸女,就不由得怀念起麦田老师来。后来用弗洛依德老师的理论分析了一下,原来事出于麦田老师的那句名言:每一个成功的网站,背后都有一个伟大的女人。
再往下一想,莫非本鸟着了猛小蛇这厮(现在是聚友网的一高级头目)的道儿,这又是一个炒作?嗯,恐怕的确如此,聚友网已经是个成功的网站了,但还没有找到属于自己的伟大的女人,由猛小蛇运营出一个来,也在情理之中。
看了看别处的评论,哈哈,几乎一大半都是惊弓之鸟,怒斥聚友网,更有直接喝骂猛小蛇的,说这厮拐了良家妇女不说,还把人家的裸照放出来……
嗯嗯,这就不对了。本鸟对猛小蛇向来熟悉,天生情种倒是真的,但拍了裸照再放将出来,这种冠希式行径,猛兄是决计做不出来的。
直到上月上海教育电视台对赤裸特工的专访放将出来,本鸟这才释然:原来这赤裸特工不是一支居心叵测的箭,人家真是看中了聚友网这个平台,期望在这里大热,从而引起类色情杂志男人装的青睐,再达到红遍大江南北拳打芙蓉姐脚踢木子美的宏伟目标。
于是打电话给猛小蛇,致以歉意:抱歉,俺误解了你,也误解了聚友。电话那头的猛小蛇却只问了一句:哥们,你觉得赤裸特工怎么样,好看吗?
本鸟赶紧答道:好看,好看!
猛小蛇说:那不就结了,你爽了就行了,想那么多干嘛?
也是,俺想那么多干嘛?于是赶紧说道:请猛总代我向你们罗总致意,聚友网终于找到了自己背后伟大的女人!