champion



« March 2007 | Main | May 2007 »
这两个词在很多情况下通用,我也无法辨析二者到底有什么区别,手边又没有词典,所以到忆容在线词典上查了一下,二者解释如下:
旅行
lǚxíng
〖travel;journey;tour〗远行;去外地办事或游览
横越全州的旅行
旅游
lǚyóu
〖tour;tourism〗外出旅行游览
一次花钱不多的欧洲旅游
从上面给出的解释可以看出这两个词确实在大都时候可相互取代,小小的区别在于一个“或”字,去外地办事或游览都可称之为旅行,而去旅游就是去游览的意思,没有人会认为说你去旅游是去办事。因此我认为大体上只要是发生了位移,即一个人从某地移到了另外一个地方便可称之为旅行,至于你是去观光、出差、游学还是探亲都没关系。旅游则更加具体,就是去观光游览的。其实在英文中有类似的情况,旅行一般在英文中对应travel,而旅游则对应tour,当然和在中文中一样他们大多数时候也是可相互取代的,海词上的解释:
travel: [ 'trævl ]
v.&n.旅行,传播
tour: [ tuə ]
n. 旅游,观光旅行,任期
v. 旅行,周游
难怪ctrip和elong不约而同称自己为旅行网而非旅游网,而大多地方性的旅行社的网站和景区网站都标明自己是旅游网。
前两天一不小心把ipod中的歌曲给全删除了,大多歌曲在硬盘上也没有备份,这下可好一夜回到了解放前
这体现了我一贯做事的风格:比如把数据库中的整个表删掉,又比如在连接远程服务器的命令行窗口中运行sudo halt然后上床睡觉做美梦。。。所以说做程序员看来是入错行了
想重新放点歌曲进去,突然不知道放什么歌好,这才想起来其实平常很少更新过ipod里面的歌曲
然后就又想起读大学时常去泡的一个论坛,里面都是一些怀旧爱好者
在里面你要说你不喜欢老歌人都鄙视你,你要在里面谈论新歌都没人理你
只是后来发现其实新歌老歌都一样,当年坛子里被大多数人不屑的周某红了这么多年了,某些歌也快够上老歌资格了吧,不知道他们是否因此而喜欢上了,或者说等哪天主流不是R&B了他们就会喜欢?
我对听歌没什么特殊要求,没有非要求跟Rock、R&B的什么得沾边,有时感觉旋律对了,有时感觉歌词对了,那就喜欢上了
记得某人说过:不管一本多么热门的书,你都可以三年后再去看,如果那时候还是被推崇,那这本书就是值得看的
我想一首歌大体也差不多吧,甚至应该比三年还长的时间,但是飘在大街小巷里的歌曲很少能经得住这样的考验,不然怎么叫“流行”呢?
足球经理玩了一个月了,也有点厌倦了,好在模拟经营类的游戏不像即时战略游戏一样不能分心,所以基本上我最近都是听着音乐一边玩游戏一边捧本小说看
一个人在台上演讲,台下掌声雷动,所有人起立鼓掌致敬,这样的场景我们见太多了,以致于突然发生这样的事显得非常不“和谐”。在中国,浏览器=IE,操作系统=windows,所以不管王开源同学是否真是炒作之作,举着“Free software open source”的牌子在bill演讲的会场出现不是一件丢人的事。当然,传说就这样传开了,看起来略显悲壮,但大概反映了国产软件业的真实现状吧。ubuntu7.04正式版发布好几天了,还没机会试用,在公司上班有非得用windows的理由,回家难道能在linux下玩足球经理吗?
微软没义务免费、开源,但是这种呼吁属于另一种声音有存在的必要。不是有达人说过吗,唯有自由是值得不懈追求的。
分词算法一般有三类:基于字符串匹配、基于语义分析、基于统计。复杂的分词程序会将各种算法结合起来以便提高准确率。
Lucene被很多公司用来提供站内搜索,但是Lucene本身并没有支持中文分词的组件,只是在Sandbox里面有两个组件支持中文分词:ChineseAnalyzer和CJKAnalyzer。
ChineseAnalyzer采取一个字符一个字符切分的方法,例如“我想去北京天安门广场”用ChineseAnalyzer分词后结果为: 我#想#去#北#京#天#安#门#广#场。
CJKAnalyzer则是二元分词法,即将相邻的两个字当成一个词,同样前面那句用CJKAnalyzer分词之后结果为:我想#想去#去北#北京#京天#天安#安门#门广#广场。
这两种分词方法都不支持中文和英文及数字混合的文本分词,例如:IBM T60HKU现在只要11000元就可以买到。用上述两种分词方法建立索引,不管是搜索IBM还是11000都是没办法搜索到的。另外,假如我们使用“服务器”作为关键字进行搜索时,只要文档包含“服务”和“器”就会出现在搜索结果中,但这显然是错误的。因此,ChineseAnalyzer和CJKAnalyzer虽然能够简单实现中文的分词,但是在应用中仍然会感觉到诸多不便。
基于字符串匹配的分词算法用得很多的是正向最大匹配和逆向最大匹配。其实这两种算法是大同小异的,只不过扫描的方向不同而已,但是逆向匹配的准确率会稍微高一些。"我想去北京天安门广场"这句使用最大正向分词匹配分词结果:我#想去#北京#天安门广场。这样分显然比ChineseAnalyzer和CJKAnalyzer来得准确,但是正向最大匹配是基于词典的,因此不同的词典对分词结果影响很大,比如有的词典里面会认为“北京天安门”是一个词,那么上面那句的分词结果则是:我#想去#北京天安门#广场。如果用“广场”作为关键字进行检索,那么使用后一个词典分出来的便可检索到,而使用前一个的则不行,而事实上应该是不管搜索北京天安门、天安门广场、天安门、广场都能检索到这篇文档。使用全切分可以实现这个想法,同样是那句使用正向全切分分词结果为:我#想去#北京天安门#北京#天安门#天安门广场#广场,这样不管用”北京天安门“、”天安门广场“、”天安门“、”广场“中的哪一个作为关键字搜索都可以搜索到。采取这种分法会在一定程度上提高分词的准确率,但也会出现问题,例如“我要在上海南站上车”这句采用正向全切分结果为:我#要在#上海#海南#南站,分出海南这个词显然是错误的,这属于交叉歧义。这有一篇声称可以检测所有交叉歧义的分词算法论文,我没去实现过,所以不知道真正的效果到底如何。
正如前面所说,基于字符串匹配的分词算法都是依赖于词典的,但是不管再怎么大的词典也未必能完全收录所有词汇,况且不断的有新词出现,还有就是人名的识别,因此分词程序如果能够识别出一些词典中所没有的新词的话,有助于提高分词的准确率。最简单的识别新词的方法可以基于统计,一般来说如果两个字不断重复的出现在一起那么他们组成一个词的频率就比较大。基于单字共现的统计方法计算两个汉字A和B(也可能是三个或更多)的相邻共现概率,当这种概率值大于一定的阀值时,我们就认为这两个字可以组词。经常被用来做新词识别的统计理论有:N - 元模型、后缀数组等。
九游据说是中国十大优秀专业旅游网,今天上去看了一下,果然够“优秀”的。新改版的度假看起来还不错,套用blogbus横戈的话,“预祝9tour改版成功,虽然改的很像途牛”。
紫光我用了很多年了,从没想过要换,这次试个新的吧,还碰上个剽来的,所以说dont be evil那是骗肖的(闽南语)。
谷歌输入法一推出,网上批评的比较多。偶一开始也没打算试,就像搜狗输入法推出之后我就从没打算用一样,虽然我曾经在用同事的电脑时用过了搜狗。刚刚上抓虾,又看到很多帮谷歌输入法挑刺的,还有说是抄袭搜狗输入法,其实中文输入法就那样了,再怎么也张个几分像,没啥好奇怪。我下载一个来试了一下,感觉没那么差,至少很快发现比我用了好几年的紫光要好,而且打tuniu谷歌输入法居然默认就是“途牛”,呵呵,单是这点就得给它加分,决定试用几天,还可以的话就用它替代紫光了,早就受不了紫光绑定流氓插件的做法了。
上一段是用紫光输入法写的,这段开始就是用谷歌输入法了。用Google Analytics很久了,但是一直只是用来看看访问统计和关键字统计,最近才发现其实Analytics的功能强大的惊人,所以到Google黑板报和月光博客上找了几篇关于Analytics的文章出来看了一下。Site Overlay和Conversion Goals这两个功能尤其使用,便于分析用户的点击行为和访问路径。跟Junchen聊过之后,他指出Analytics将一个页面上同一个URL的不同的链接当作一个目标来分析,这样的确不够精确,是个小小遗憾。