Thu 21 Dec 2006
| 色谭·杂谭——Royal. | ||||||
|
这是有道的“博客男女”对色谭的评价,是输入了色谭域名之后得出的结果,“博客男女”同时提供了一段相当复杂的table代码让我贴在我的blog上,就是左边这个样子。
“有道”据说是网易推出的blog搜索引擎;刚看到的时候,觉得那个“博客档案”蛮有趣,我还真不知道自己的习惯的发文时间、发文周期和文章长度是怎样的,用“有道”搜索了royalshi.com没有找到色谭,用Royal、Royal Shi、royalshi都没有找到,只找到其他blogger链接或者转载的几篇文章;搜一宁的blog却有结果,列出来的“博客评语”不由人不喷饭:
“揭下工作时间的面具,夜深人静之际情绪高涨、精神亢奋、思绪敏捷;夜游型的人群喜好独立的空间,即使是一个人的表达,也要有怡情的环境和沉静的客观条件才能抒发。要是去年,博主就是著名的网络写手了。可惜现在人人皆博,这算不得什么厉害啦。虽然只是隔三差五的发表博客,但在彷佛不经意的遥控器换台中,却总能看到博主的近日行踪。”
有道设计得比较2.0,找不到我就提交加入;提交了色谭的几个域名,后来干脆连feed的地址都提交了,随后的几天里还是没有能够搜到。今天又去瞄了一眼,有结果了,还发现了“博客男女”这么个相当娱乐的玩意。
“有道”的博客评语和“博客男女”的评点都疑似庙里摇签摇出来的,翻来复去就那么几句话,网易不会专门搞一个娱乐版的搜索引擎出来吧?让使用者提交搜索爬虫爬不到的blog,这个做法不稀奇,但是提交了之后还要这许多时间——前后5天——才能收录,这就有点奇怪了,而且,“有道”说我最近更新是12月17号——下面截屏为证——也说明这个爬虫懒得可以。引用色谭的blog数量也不对,说明有道爬虫还有许多事要做。
列出“本博客所有文章”和“博客档案”的数据这两个功能挺有用,前者可以代替rss在线阅读器,功能近似豆瓣的“我上”,后者应该可以挖掘出更多数据,除了发文的时间和文章长短,应该还可以有tag、traceback ping、blogroll等等,描绘出一个blog之间的sn也不是不可能。
搜索是为了发现,关联性的发现和推荐除了基于内容和基于协同两个维度之外,还可以有其他维度;根据需要确定不同维度,会让各个面貌看起来相似的2.0服务内核完全不同。“博客男女”搞笑测试右边的“热辣关注”、“新鲜测试”、“最man”、“最woman”——特别是“最man”和“最woman”——等等,可以看作基于第三种维度——性别?——过滤和推荐的成果。
Technorati Tags: search, blog, datamining

December 21st, 2006 at 11:33 pm
foreach(entry in feed)
{
t += ((feed.type==ATOM)?entry.issued:entry.pubDate).hour;
}
average = t/count(feed.entries);
case floor(average/5)
{
0: type = "夜猫子";
1: type = "早鸟";
2-3: type = "不认真上班";
...
}
...