前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >文本聚类平移算法的几点问题

文本聚类平移算法的几点问题

作者头像
田春峰-JCJC错别字检测
发布2019-02-14 10:07:12
7850
发布2019-02-14 10:07:12
举报

文本聚类平移算法的几点问题

文本处理,我的最爱---题记

大概一个月前 10b lobster 也和我聊起过卢亮介绍过的平移算法,详细的介绍可以看这里:卢亮的blog。记得当时第二天就看到了carrot2的发布,carrot2 上使用了多种聚类的算法。 有些人对平移算法嗤之以鼻,比如这位。在我看来,一个算法有没有效果,要看这个算法的前提和假设,大炮打小鸟怎么瞄也不带劲儿。在文本处理领域中,比如,中文分词,特别是文本聚类的算法上从来没有一个算法可以解决所有问题,很多解决方案都是采用多个算法取长补短来达到综合效果的。 昨天写关于标签和书签的blog时想到,在改善新闻阅读器的文章分类也许平移算法用的上。周末便用了半天做了一个单向移动的平移算法。 平移算法,要考虑这个算法适用的范围,这个是前提。我实现的平移算法和卢亮的目的不同,类似于我的:未登录词识别 在算法的具体设计上,还需要考虑以下几个问题: 1、窗口大小,窗口借用了tcp发包的窗口的概念,就是确认有效匹配的长度; 2、平移的方向。我下面例子只实现了单向移动; 3、效率问题,平移算法涉及了大量的比较,找到一个最短的比较边界还挺重要; 下面是一份平移算法的原始结果,找出所有it公司的人名,感觉还可以。进一步处理后,就可以投入实际应用了:

B2C,移动不,Google在中国,IT公司,Web1.0,凭什么,任何关系,不好 ,鲍尔默,有三大,现在的, 网易,在中国没,视频网,的名义,是一种,新浪博客,200,ay合作,是个很,马云雅,联想CEO, 新浪,干什么,第一 ,大的一,2.0 ,思文凯,笔记本,eb 2.0,程天宇,王建宙,721,软件产业,在社区,离不开,更重要,Web 2.0,商业化,年博客网,陈彤新,陈一舟,徐静蕾,是一个,web,绝对领,马云网络,CEO马,未来5,网不是,搜索引擎,商业模式,爱立信,做企业,技术不,互联网上,Donews,000万,1000万,李善友,惠普CEO,两年后,投资者,与百度,方兴东互联网,年时间,于技术,的竞争,赫德我,Linux,思科CEO钱伯斯,Web,新联想,我们不,不排除,英特尔CEO,对互联网,杨元庆,鲍尔默微软,可怕的,eBay,互联网创新,泼冷水,投资游戏,把自己,上3G,而不是,互联网产,ube,动互联网,.0 ,思维 ,You,惠普CEO赫德,没有失,的时候,称目前,2.0,1.0是,戴尔CEO,价格战,评论马云, 但是,富豪榜,黄光裕,创业者,新浪的,IDG,我不是,刘克丽,李志高,eBay的,不存在,中国IT,TCL,倪光南,博客的,服务将,风险投资,中国互联网,是Web,0美元,祝志军,曹国伟新浪,张朝阳互联网,IT网站的,eb2.0,周鸿袆,年后要,中移动,WiMAX,周鸿祎风,姜奇平, YouTube,团队 ,igg,规模并购,的威胁,WAPI,掌门人,国公司,张朝阳,鲍尔默微软有,游戏是,Live,尼葛洛庞帝,IPTV,CDMA,曹国伟,犯的错,喻国明,微软C,李开复,丁磊网易将,人博客,广告是,什么都,2.0发展,公司 ,微软有, Web,施密特,国互联网,500,宫玉国,陈永正,在中国,低估了,CEO王,柳传志, 不会,盖茨Google,是未来,Web2.0,薪水一,娱乐的,盖茨公,李彦宏,错误 ,李进良,乔布斯,Xbox,.0的,吴世雄,软件业,IBM,Google CEO,张朝阳博客,5年内,总裁李,很杰出,微软的,新掌门,微软CEO鲍尔默,“抄袭”,500万,的商业,最好的,齐向东,3721,e搜索,微软 CEO,周鸿祎,称百度,中搜CEO陈沛,赛门铁克,小灵通,上市 ,是微软,周鸿祎与, 没有,国软件,庞升东我,新高 ,log,吕本富,陈天桥,中国最,Digg创始人,竞争对手,中国有,吕伟钢,杨致远,犯的错误,史玉柱,百度不,张向宁,lexa,中国3G,将取代,运营商,网站并购,成网络,3G标准,5年后,曹国伟新,王建宙中移动,最困难,CEO,有什么,施振荣,天使投资,王建宙中,00万,李焜耀,收购 YouTube,王雷雷,垄断的,博客不,有今天,英特尔,网络泡沫,李彦宏 ,06年,副总裁,IT网站,本市场,传统媒,Google施密特,王志东,蔡文胜,要坚持,一定能赢,杨元庆联想,没什么,模仿印度,将继续,Web ,网CEO,Google中国,潘石屹,来不是,新浪总编,马化腾, CEO,视频是,做娱乐,六间房,并不是,粉丝网,国际化,收购要,董事会,百度李彦宏,Google,默多克,金蝶徐少春,赛门铁克CEO,2.0 的,.0是,不看好,总编辑,李学凌,1.0,反流氓软件,做三件事,网民都,李东生,副总编,高群耀,是如何,张朝阳不,新兴市场,张本伟,盖茨的,王晓初,惠特曼,企业的,副总裁李,Google还,网络成,网络媒体,Blog,100, 不看好,电子商务,比尔·盖茨, 1.0,明星博客,陈天桥盛大,当当网,创始人W,罗林斯,CEO网络,董事长,联想C,王定标,马云称,古永锵,项立刚,尔CEO,新媒体,不可能, CEO谈,投资人,任正非,雄我不,是错误,后Google,创业的,MSN,郭凡生,微软副总裁,新技术, google,阚凯力,互联网, Web2.0,多的是, 汪延,江南春,中国电信,田溯宁,看好W,新浪总编辑陈彤,什么中国,流氓软件,门户网站,张瑞敏,创始人,的IT,时最易犯,三大因素推动互联网未来发展,将是新,争议人物,周韶宁,五年内,的生活,创新 ,过多少,李开复Google,Vista,10年,中国总裁,中国不, 2.0,马雪征,黄明生,方兴东,钦佩的,周鸿一,两年内,eBay合作,把自己当,中国网,汤美娟,雅虎中国,Mysee高燃,网CEO李,王吉鹏,网络游戏,Google收购YouTube,不是一,TOM,徐东英,

怎么样感觉还可以吧。 我正在实现一个新闻句子提取引擎,做好后放到新闻阅读器里,这样查看高燃语录(2005-2006语录)的时候,可能会更方便。

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2006年10月30日,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档