Dec
21

算命

色谭·杂谭——Royal.
100.0%男性倾向,0.0%女性倾向
评点:您的文风冷静而镇定,言语间展现出强悍的思辨能力与恢宏的胸襟,一个男子汉的阳刚形象跃然纸上。
yodao | 博客男女

这是有道的“博客男女”对色谭的评价,是输入了色谭域名之后得出的结果,“博客男女”同时提供了一段相当复杂的table代码让我贴在我的blog上,就是左边这个样子。

“有道”据说是网易推出的blog搜索引擎;刚看到的时候,觉得那个“博客档案”蛮有趣,我还真不知道自己的习惯的发文时间、发文周期和文章长度是怎样的,用“有道”搜索了royalshi.com没有找到色谭,用Royal、Royal Shi、royalshi都没有找到,只找到其他blogger链接或者转载的几篇文章;搜一宁的blog却有结果,列出来的“博客评语”不由人不喷饭:

“揭下工作时间的面具,夜深人静之际情绪高涨、精神亢奋、思绪敏捷;夜游型的人群喜好独立的空间,即使是一个人的表达,也要有怡情的环境和沉静的客观条件才能抒发。要是去年,博主就是著名的网络写手了。可惜现在人人皆博,这算不得什么厉害啦。虽然只是隔三差五的发表博客,但在彷佛不经意的遥控器换台中,却总能看到博主的近日行踪。”

有道设计得比较2.0,找不到我就提交加入;提交了色谭的几个域名,后来干脆连feed的地址都提交了,随后的几天里还是没有能够搜到。今天又去瞄了一眼,有结果了,还发现了“博客男女”这么个相当娱乐的玩意。

“有道”的博客评语和“博客男女”的评点都疑似庙里摇签摇出来的,翻来复去就那么几句话,网易不会专门搞一个娱乐版的搜索引擎出来吧?让使用者提交搜索爬虫爬不到的blog,这个做法不稀奇,但是提交了之后还要这许多时间——前后5天——才能收录,这就有点奇怪了,而且,“有道”说我最近更新是12月17号——下面截屏为证——也说明这个爬虫懒得可以。引用色谭的blog数量也不对,说明有道爬虫还有许多事要做。

列出“本博客所有文章”和“博客档案”的数据这两个功能挺有用,前者可以代替rss在线阅读器,功能近似豆瓣的“我上”,后者应该可以挖掘出更多数据,除了发文的时间和文章长短,应该还可以有tag、traceback ping、blogroll等等,描绘出一个blog之间的sn也不是不可能。

搜索是为了发现,关联性的发现和推荐除了基于内容和基于协同两个维度之外,还可以有其他维度;根据需要确定不同维度,会让各个面貌看起来相似的2.0服务内核完全不同。“博客男女”搞笑测试右边的“热辣关注”、“新鲜测试”、“最man”、“最woman”——特别是“最man”和“最woman”——等等,可以看作基于第三种维度——性别?——过滤和推荐的成果。

urlhttpwwwroyalshicom - 有道博客搜索

search,blog,datamining
searchblogdatamining

1 Comment

Make A Comment
  • a gravatar Yining Said:


    foreach(entry in feed)
    {
    t += ((feed.type==ATOM)?entry.issued:entry.pubDate).hour;
    }
    average = t/count(feed.entries);
    case floor(average/5)
    {
    0: type = "夜猫子";
    1: type = "早鸟";
    2-3: type = "不认真上班";
    ...
    }
    ...

Comments RSS Feed   TrackBack URL

Leave a comment

top