首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    文本聚类平移算法的几点问题

    大概一个月前 10b lobster 也和我聊起过卢亮介绍过的平移算法,详细的介绍可以看这里:卢亮的blog。记得当时第二天就看到了carrot2的发布,carrot2 上使用了多种聚类的算法。 有些人对平移算法嗤之以鼻,比如这位。在我看来,一个算法有没有效果,要看这个算法的前提和假设,大炮打小鸟怎么瞄也不带劲儿。在文本处理领域中,比如,中文分词,特别是文本聚类的算法上从来没有一个算法可以解决所有问题,很多解决方案都是采用多个算法取长补短来达到综合效果的。 昨天写关于标签和书签的blog时想到,在改善新闻阅读器的文章分类也许平移算法用的上。周末便用了半天做了一个单向移动的平移算法。 平移算法,要考虑这个算法适用的范围,这个是前提。我实现的平移算法和卢亮的目的不同,类似于我的:未登录词识别 在算法的具体设计上,还需要考虑以下几个问题: 1、窗口大小,窗口借用了tcp发包的窗口的概念,就是确认有效匹配的长度; 2、平移的方向。我下面例子只实现了单向移动; 3、效率问题,平移算法涉及了大量的比较,找到一个最短的比较边界还挺重要; 下面是一份平移算法的原始结果,找出所有it公司的人名,感觉还可以。进一步处理后,就可以投入实际应用了:

    06
    领券