庸俗路上的无尽狂奔……

显示标签为“Search”的博文。显示所有博文
显示标签为“Search”的博文。显示所有博文

星期二, 十二月 19, 2006

津津乐道 - 有道

无意中发现了一个新搜索引擎-有道(yodao.com),界面简洁干净,目前包含了三个子搜索:网页、博客、海量词典。简单试用了一下,速度很不错,索引也比较齐全,网页搜索比较独特的是预览功能,小测试了一下小站,可以看到在蜘蛛抓取的情况下,网页所呈现的样貌。在使用site:单独定义的时候索引的不是该域名下的网页,而是含有该网址的网页(指内容之中),与不使用site:标记的效果是一样的。必须要在site:标记的前面或者后面加上关键词才能搜索出该域名下的网页内容。这与Google和百度有所不同,不知道是有意为之还是正在测试当中。


其博客搜索的特色功能包括:即时提示博客卡片博客档案网络释义等等,很有意思,值得一提的是,刚刚发现他们的博客搜索因为和百度博客搜索一样,独立的Blogger相对于寄居BSP门下的更难索引到,且所用程序和样式千千万万,索引的并不多,刚好发现有道的交流论坛:坐而论道,于是进去发了个帖子问一下,在别人的建议下去提交了一下自己的Blog,结果也许是机缘巧合,也许是真的就那么快,我的Blog就被收录了。


有道的海量词典也是一个蛮好玩的功能,用网页而非定语来解释词语,有兴趣地可以去玩一下



期间和一个网友有了些小小的交流:



博客搜索有一些人性化的特色功能,也有不少花俏的东西能满足特定用户的需求。

但有一个问题,就是目前打博客搜索仅相当于一个变种升级版版的RSS采集器,搜索中严重依赖rss,而网民的rss不是都开放的(有的是还不晓得rss,
有的是系统升级时把他的rss关掉了或者改变了feed而博主不知道),因此就有些被动了,搜索结果的完整性、更新时间及在rss数据基础上做出的用户分
析等效果都打了折扣。

建议想办法,把自动抓取rss和网友自主提交结合的同时,辅以网页搜索技术来补足(不过这样又有可能冲淡了博客名片等特色功能),最好是能想办法教网友们都乐于主动开放rss并提供最优质的feed。

----博客搜索太过依赖RSS Feed了


我也第一次会在某个论坛中兴致颇高的回复了"一大通"话:


我倒是觉得RSS搜索可能才是王道,因为目前的博客(我更愿意称之为BLOG在没有更好的名字的情况下)数量之巨,是任何
时候都无法比拟的,只有通过精简有效的方法抓取,才能获得更多更广泛的来源,既然有道是刚刚起步,所以也许另辟蹊径是行之有效且能获得更多习惯依赖百度和
Google的人们提起兴趣,将自己早已习惯的东西为之改变,当然要做到他们那样的庞大且应用众多短期内是没有可能的,罗马不是一天建成的。也许在搜索这
个领域持之以恒下去才有可能,也许人们以后邮箱还是用Gmail,Mp3搜索还是用百度,但如果人们能在想搜索博客的时候能够第一个想到有道,那么,那个
时候,有道人可以自豪的说:我们成功了。

也许上面的话有些偏题,有道作为为又一个新的搜索应用出现,上面的话恰恰是我现在的一点点小希望。


版主Randy也回复了我们:


我们当然希望尽可能满足大多数人,我们也希望我们的产品能够在更多条件下达到最快最好。RSS feed是大势所趋,当然在今后我们也会辅以页面抓取,尽量满足更多的用户。但毕竟有RSS feed的用户应该说是绝大多数的。


楼主和楼上几位的意见我们都会虚心听取的,也感谢你们关注有道。有了你们,有道会发展得更茁壮^^


正如有道的关于里面写道的:有道的发起者是一群执着于搜索技术的年轻人,我们发现中文网络中的搜索还远未达到理想,所以希望通过我们现在和将来的努力,把设想中的服务一点点变成现实,分享给大家使用,让你更快一秒找到想要的好东西。期待有道有一个美好的未来。


期间和一个网友有了些小小的交流:


博客搜索有一些人性化的特色功能,也有不少花俏的东西能满足特定用户的需求。
但有一个问题,就是目前打博客搜索仅相当于一个变种升级版版的RSS采集器,搜索中严重依赖rss,而网民的rss不是都开放的(有的是还不晓得rss,有的是系统升级时把他的rss关掉了或者改变了feed而博主不知道),因此就有些被动了,搜索结果的完整性、更新时间及在rss数据基础上做出的用户分析等效果都打了折扣。
建议想办法,把自动抓取rss和网友自主提交结合的同时,辅以网页搜索技术来补足(不过这样又有可能冲淡了博客名片等特色功能),最好是能想办法教网友们都乐于主动开放rss并提供最优质的feed。
----博客搜索太过依赖RSS Feed了

我也第一次会在某个论坛中兴致颇高的回复了"一大通"话:


我倒是觉得RSS搜索可能才是王道,因为目前的博客(我更愿意称之为BLOG在没有更好的名字的情况下)数量之巨,是任何时候都无法比拟的,只有通过精简有效的方法抓取,才能获得更多更广泛的来源,既然有道是刚刚起步,所以也许另辟蹊径是行之有效且能获得更多习惯依赖百度和Google的人们提起兴趣,将自己早已习惯的东西为之改变,当然要做到他们那样的庞大且应用众多短期内是没有可能的,罗马不是一天建成的。也许在搜索这个领域持之以恒下去才有可能,也许人们以后邮箱还是用Gmail,Mp3搜索还是用百度,但如果人们能在想搜索博客的时候能够第一个想到有道,那么,那个时候,有道人可以自豪的说:我们成功了。
也许上面的话有些偏题,有道作为为又一个新的搜索应用出现,上面的话恰恰是我现在的一点点小希望。


版主Randy也回复了我们:


我们当然希望尽可能满足大多数人,我们也希望我们的产品能够在更多条件下达到最快最好。RSS feed是大势所趋,当然在今后我们也会辅以页面抓取,尽量满足更多的用户。但毕竟有RSS feed的用户应该说是绝大多数的。
楼主和楼上几位的意见我们都会虚心听取的,也感谢你们关注有道。有了你们,有道会发展得更茁壮^^


正如有道的关于里面写道的:有道的发起者是一群执着于搜索技术的年轻人,我们发现中文网络中的搜索还远未达到理想,所以希望通过我们现在和将来的努力,把设想中的服务一点点变成现实,分享给大家使用,让你更快一秒找到想要的好东西。期待有道有一个美好的未来。


星期日, 十一月 05, 2006

二三事

瞎忙乎了老半天,觉得还是记下来好,要不老是犯迷糊。


  • 壹、解决了Live Search的编码问题

微软的Live Search其实很不错的,原来的MSN虽然默默无闻,但是索引起来也蛮勤快的,今天忽然想到在首页里面加上自定义的404/500页面,所以就用了.htaccess加了几句就OK,代码为:


ErrorDocument 404 /error.html

ErrorDocument 500 /error.html

RewriteEngine on

RewriteCond %{HTTP_REFERER} !^$

RewriteCond %{HTTP_REFERER} !^http://(www\.)?zhu8.net/.*$ [NC]

RewriteRule \.(js|mp3|wma)$ - [F]

我是把404和500放在一个页面的,省得麻烦,所以就想弄一个单纯的搜索页面,一直发现Live!对我的站索引还蛮全的,所以除了加上Google之外,还想加上Live Search的(见此),但是在编码上遇到了问题:



在下面的代码中,必须用您网站所用语言所对应的三位或四位数代码页编号来替换"您的网页所用代码页"。

例如,如果您的网站是用源于拉丁文的语言(英语、法语或德语)编写的,则用 1252 编号来取代此指令:

value="1252″

有关各语言所对应的代码页值,请参阅 Windows 支持的代码页网页。

很显然,里面有GBK码(代码:936),但是没有UTF-8码(应该不是我没有找到),只好到网上去找,不经意发现了UTF-8的代码:65001,于是将代码一修改,就成了。详细可以到这个页面去看下源代码就好了。


  • 贰、解决了WinXP下chm电子书无法显示页面的问题

本来想把原来的"偏航"里无声听雨的小波文集弄起来的,因为我这一直存着opig做的chm电子书档,结果在网吧翻出来弄,书的导航栏倒是没有问题,页面却老是"无法显示网页",弄的我郁闷,网上去搜,先是到了微软的官方说明页面,以为要折腾注册表,在网吧要弄注册表是很烦的事情,再去搜搜,在这发现了最简单的方法:Loveyuki一语惊醒梦中人,原来如此简单(内有截图),还去按微软那样复杂何必呢?



由于空间是PHP的,所以也没打算重新弄个Z-Blog重出江湖,把文档重新归了一下档,做成了HTML的静态页面,但是音乐文件就没去修改,
因为很多都失效了。倒是网吧没有装Ofice,而我又需要打开ACCESS的数据库,先是下了微软的Excel
Viewer,后来发现只能看,不能修改,而我恰恰需要把Mdb文件解下来提取日志的相关内容,后来终于找到了:Microsoft Office 2003 Sp2〖精简免安装绿色版〗。把该数据库导出成XLS,打开,选了文章、评论等等复制出来,一切OK。


  • 肆、修改了原颜色代码

把原来的中英文颜色代码弄掉了,换了个国外的,胡乱翻译了一下,放出来了。页面自我感觉还蛮好看的,就是都是TABLE,想改成DIV+CSS可是东西太多,没什么必要。


除特别标注外,猪八的网:浮生志 的所有文章为 Zhu8™ 所有。
Blogging @ 2004-2022