猪八的网：浮生志

星期二, 十二月 19, 2006

津津乐道 - 有道

无意中发现了一个新搜索引擎-有道(yodao.com)，界面简洁干净，目前包含了三个子搜索：网页、博客、海量词典。简单试用了一下，速度很不错，索引也比较齐全，网页搜索比较独特的是预览功能，小测试了一下小站，可以看到在蜘蛛抓取的情况下，网页所呈现的样貌。在使用site:单独定义的时候索引的不是该域名下的网页，而是含有该网址的网页（指内容之中），与不使用site:标记的效果是一样的。必须要在site:标记的前面或者后面加上关键词才能搜索出该域名下的网页内容。这与Google和百度有所不同，不知道是有意为之还是正在测试当中。

其博客搜索的特色功能包括：即时提示、博客卡片、博客档案、网络释义等等，很有意思，值得一提的是，刚刚发现他们的博客搜索因为和百度博客搜索一样，独立的Blogger相对于寄居BSP门下的更难索引到，且所用程序和样式千千万万，索引的并不多，刚好发现有道的交流论坛：坐而论道，于是进去发了个帖子问一下，在别人的建议下去提交了一下自己的Blog，结果也许是机缘巧合，也许是真的就那么快，我的Blog就被收录了。

有道的海量词典也是一个蛮好玩的功能，用网页而非定语来解释词语，有兴趣地可以去玩一下。

期间和一个网友有了些小小的交流：

博客搜索有一些人性化的特色功能，也有不少花俏的东西能满足特定用户的需求。

但有一个问题，就是目前打博客搜索仅相当于一个变种升级版版的RSS采集器，搜索中严重依赖rss，而网民的rss不是都开放的（有的是还不晓得rss，
有的是系统升级时把他的rss关掉了或者改变了feed而博主不知道），因此就有些被动了，搜索结果的完整性、更新时间及在rss数据基础上做出的用户分
析等效果都打了折扣。

建议想办法，把自动抓取rss和网友自主提交结合的同时，辅以网页搜索技术来补足（不过这样又有可能冲淡了博客名片等特色功能），最好是能想办法教网友们都乐于主动开放rss并提供最优质的feed。

----博客搜索太过依赖RSS Feed了

我也第一次会在某个论坛中兴致颇高的回复了"一大通"话：

我倒是觉得RSS搜索可能才是王道，因为目前的博客（我更愿意称之为BLOG在没有更好的名字的情况下）数量之巨，是任何
时候都无法比拟的，只有通过精简有效的方法抓取，才能获得更多更广泛的来源，既然有道是刚刚起步，所以也许另辟蹊径是行之有效且能获得更多习惯依赖百度和
Google的人们提起兴趣，将自己早已习惯的东西为之改变，当然要做到他们那样的庞大且应用众多短期内是没有可能的，罗马不是一天建成的。也许在搜索这
个领域持之以恒下去才有可能，也许人们以后邮箱还是用Gmail，Mp3搜索还是用百度，但如果人们能在想搜索博客的时候能够第一个想到有道，那么，那个
时候，有道人可以自豪的说：我们成功了。

也许上面的话有些偏题，有道作为为又一个新的搜索应用出现，上面的话恰恰是我现在的一点点小希望。

版主Randy也回复了我们：

我们当然希望尽可能满足大多数人，我们也希望我们的产品能够在更多条件下达到最快最好。RSS feed是大势所趋，当然在今后我们也会辅以页面抓取，尽量满足更多的用户。但毕竟有RSS feed的用户应该说是绝大多数的。

楼主和楼上几位的意见我们都会虚心听取的，也感谢你们关注有道。有了你们，有道会发展得更茁壮^^

正如有道的关于里面写道的：有道的发起者是一群执着于搜索技术的年轻人，我们发现中文网络中的搜索还远未达到理想，所以希望通过我们现在和将来的努力，把设想中的服务一点点变成现实，分享给大家使用，让你更快一秒找到想要的好东西。期待有道有一个美好的未来。

期间和一个网友有了些小小的交流：

博客搜索有一些人性化的特色功能，也有不少花俏的东西能满足特定用户的需求。
但有一个问题，就是目前打博客搜索仅相当于一个变种升级版版的RSS采集器，搜索中严重依赖rss，而网民的rss不是都开放的（有的是还不晓得rss，有的是系统升级时把他的rss关掉了或者改变了feed而博主不知道），因此就有些被动了，搜索结果的完整性、更新时间及在rss数据基础上做出的用户分析等效果都打了折扣。
建议想办法，把自动抓取rss和网友自主提交结合的同时，辅以网页搜索技术来补足（不过这样又有可能冲淡了博客名片等特色功能），最好是能想办法教网友们都乐于主动开放rss并提供最优质的feed。
----博客搜索太过依赖RSS Feed了

我也第一次会在某个论坛中兴致颇高的回复了"一大通"话：

我倒是觉得RSS搜索可能才是王道，因为目前的博客（我更愿意称之为BLOG在没有更好的名字的情况下）数量之巨，是任何时候都无法比拟的，只有通过精简有效的方法抓取，才能获得更多更广泛的来源，既然有道是刚刚起步，所以也许另辟蹊径是行之有效且能获得更多习惯依赖百度和Google的人们提起兴趣，将自己早已习惯的东西为之改变，当然要做到他们那样的庞大且应用众多短期内是没有可能的，罗马不是一天建成的。也许在搜索这个领域持之以恒下去才有可能，也许人们以后邮箱还是用Gmail，Mp3搜索还是用百度，但如果人们能在想搜索博客的时候能够第一个想到有道，那么，那个时候，有道人可以自豪的说：我们成功了。
也许上面的话有些偏题，有道作为为又一个新的搜索应用出现，上面的话恰恰是我现在的一点点小希望。

版主Randy也回复了我们：

我们当然希望尽可能满足大多数人，我们也希望我们的产品能够在更多条件下达到最快最好。RSS feed是大势所趋，当然在今后我们也会辅以页面抓取，尽量满足更多的用户。但毕竟有RSS feed的用户应该说是绝大多数的。
楼主和楼上几位的意见我们都会虚心听取的，也感谢你们关注有道。有了你们，有道会发展得更茁壮^^

星期日, 十一月 05, 2006

二三事

瞎忙乎了老半天，觉得还是记下来好，要不老是犯迷糊。

壹、解决了Live Search的编码问题

微软的Live Search其实很不错的，原来的MSN虽然默默无闻，但是索引起来也蛮勤快的，今天忽然想到在首页里面加上自定义的404/500页面，所以就用了.htaccess加了几句就OK，代码为：

ErrorDocument 404 /error.html

ErrorDocument 500 /error.html

RewriteEngine on

RewriteCond %{HTTP_REFERER} !^$

RewriteCond %{HTTP_REFERER} !^http://(www\.)?zhu8.net/.*$ [NC]

RewriteRule \.(js|mp3|wma)$ - [F]

我是把404和500放在一个页面的，省得麻烦，所以就想弄一个单纯的搜索页面，一直发现Live!对我的站索引还蛮全的，所以除了加上Google之外，还想加上Live Search的（见此），但是在编码上遇到了问题：

在下面的代码中，必须用您网站所用语言所对应的三位或四位数代码页编号来替换"您的网页所用代码页"。

例如，如果您的网站是用源于拉丁文的语言（英语、法语或德语）编写的，则用 1252 编号来取代此指令：

value="1252″

有关各语言所对应的代码页值，请参阅 Windows 支持的代码页网页。

很显然，里面有GBK码（代码：936），但是没有UTF-8码（应该不是我没有找到），只好到网上去找，不经意发现了UTF-8的代码：65001，于是将代码一修改，就成了。详细可以到这个页面去看下源代码就好了。

贰、解决了WinXP下chm电子书无法显示页面的问题

本来想把原来的"偏航"里无声听雨的小波文集弄起来的，因为我这一直存着opig做的chm电子书档，结果在网吧翻出来弄，书的导航栏倒是没有问题，页面却老是"无法显示网页"，弄的我郁闷，网上去搜，先是到了微软的官方说明页面，以为要折腾注册表，在网吧要弄注册表是很烦的事情，再去搜搜，在这发现了最简单的方法：Loveyuki一语惊醒梦中人，原来如此简单（内有截图），还去按微软那样复杂何必呢？

叁、以前的旧Blog重新贴出

由于空间是PHP的，所以也没打算重新弄个Z-Blog重出江湖，把文档重新归了一下档，做成了HTML的静态页面，但是音乐文件就没去修改，
因为很多都失效了。倒是网吧没有装Ofice，而我又需要打开ACCESS的数据库，先是下了微软的Excel
Viewer，后来发现只能看，不能修改，而我恰恰需要把Mdb文件解下来提取日志的相关内容，后来终于找到了：Microsoft Office 2003 Sp2〖精简免安装绿色版〗。把该数据库导出成XLS，打开，选了文章、评论等等复制出来，一切OK。

肆、修改了原颜色代码

把原来的中英文颜色代码弄掉了，换了个国外的，胡乱翻译了一下，放出来了。页面自我感觉还蛮好看的，就是都是TABLE，想改成DIV+CSS可是东西太多，没什么必要。

猪八的网：浮生志

星期二, 十二月 19, 2006

津津乐道 - 有道

星期日, 十一月 05, 2006

二三事

我的主站

页面

Translate

搜索此博客

关于我

联系人表单

博客归档

标签

关注者

Reader

网页浏览总次数

猪八的网：浮生志

星期二, 十二月 19, 2006

津津乐道 - 有道

星期日, 十一月 05, 2006

二三事

我的主站

页面

Translate

订阅

搜索此博客

关于我

联系人表单

博客归档

标签

关注者

Reader

网页浏览总次数