众推项目的最近讨论

openKM

想问下有没有这样的开源文件管理系统,所有人都可以上传文件,只有有权限的管理员才可以下载他人的文件?

不知道openkm能不能做到。

OpenKM是一个开放源代码的电子文档管理系统,它的特点是可用于大型公司或是中小企业, 适应性比较强。 并且在知识管理方面的加工,提供了更加灵活和成本较低的替代应用。

界面如下:

zongtui项目

项目地址: (分布式爬虫)http://git.oschina.net/zongtui/zongtui-webcrawler (去重过滤器)https://git.oschina.net/zongtui/zongtui-filter (文本分类器)https://git.oschina.net/zongtui/zongtui-classifier (文档目录)https://git.oschina.net/zongtui/zongtui-doc

然后再推荐一篇文章:(深度学习 vs 机器学习 vs 模式识别)

http://www.itd4j.com/cloudcomputing/15538.html

自动化部署

请问 有Java的自动化部署工具推荐不?

有时候修改几个文件就要重新打包发布重启,太麻烦了,请问有什么更好的办法么?

Jenkins是一个开源软件项目,旨在提供一个开放易用的软件平台,使持续集成变成可能经济界。

云爬取

就是有一个客户端要爬取一千个商品,他可以提交给服务器,然后有服务器在分配给其它客户端来爬取。这样搞性能比较高,还能逃过IP限制。

那就是用户要爬什么资料。你就让用户自己去爬取。服务端只负责,接收任务,分配任务,返回任务。

等于是免费的ip池而已。。

项目新架构

经过讨论,目前的项目新架构已经修改如下:

这样,问题的集中点就在如何接入爬虫上了,因为现在各种爬虫已经太多,没必要在搞一个什么新鲜的东西!

core部分的思路参考:

下一步的处理

1.通过设定规则抓取页面;

2.设定页面存储方案;

3.通过页面材料分析出内容属性;

4.通过内容属性生成结果;

5.通过结果进行学习;

6.通过结果生成内容;

说一下为什么接入其它的,我举两个例子

1、webmagic

就我知道,这哥们写了2年,基本上各种问题都遇到过。没必要再走一遍它的路,如果有问题可以通过它预留的接口帮它完善,或者直接用自己的实现。比如有性能问题,就我知道现在国内没有一个比较权威的对各种爬虫做比较。

2、Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。

Nutch的创始人是Doug Cutting,他同时也是Lucene、Hadoop和Avro开源项目的创始人。

说它有问题我觉得只有这么几种可能:

1、场景不适合。

2、没理解,没用明白。

所以我觉得没必要非得造个轮子。

个性化推荐

用户端就是数据呈现了,我的理解是内容方主要的工作是:采集、整理、推荐、打TAG、分值(多个)、推荐、赞、踩、回复数、类型(图文、视频、文本、微信、微博等);

用户这边的东西就确实高级很多:单体关系画像,不同社交圈关系画像,主要人群划分TAG得分,年龄、性别、职业、特别事件、喜欢内容TAG得分、收藏内容TAG得分、分享内容TAG得分、不感兴趣内容TAG得分(负值或其他分数) 推荐引擎主要的工作:按照用户的tag得分匹配内容,结合地理位置(当前的和常用的)、当前时间段(早、中、下、晚)、当前日期(节日、周末)、热点实时注册的时候选择标签这个是SNS的做法了,头条现在基本上都是从用户关系拿了关联用户数据再来推。

众推只要完成了初步的推荐功能,其他的基本上都是靠运营的人来积累数据。没有足够的数据肯定精准度要差点。比如一点资讯,现在内容差不多已经全搬过来了,但是推荐还是很烂,主要靠套用头条的编辑推荐那块,人工加了点分值。要不然感觉推荐会更加不准。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏CSDN技术头条

Facebook:如何让应用适合所有系统、带宽以及屏幕

如果你的移动应用程序只能在某个地区(比如US)运行良好,那么该如何改善?在@scale conference上,Facebook多次谈及了这个问题。那么如何才能...

2069
来自专栏腾讯移动品质中心TMQ的专栏

走进标准化测试

一、引言 为避免大篇幅的概念介绍,我们直接从项目实践入手,为读者朋友理解标准化测试。在开始,只要理解标准化测试是为了解决项目测试实际问题而产生的测试方案即可。 ...

5277
来自专栏玉树芝兰

如何高效入门Github?

如今的编程,早已不是单打独斗的模式了。优秀的编程人员,甚至是初学者,都必须学会如何与他人高效协作。Github是编程协作中须要掌握的基础知识。如何尽快入门,少走...

902
来自专栏web前端教室

看太多简单易懂的教程,对你没有好处

太难的教程看不懂,那只能看一些简单的了。简单的教程,它也是教程啊,那为什么看了许多简单的教程,却依然没什么进步? 其实原因很简单,因为简单的教程之所以简单,是因...

1955
来自专栏Vamei实验室

树莓派:你是我的眼

作者:Vamei 出处:http://www.cnblogs.com/vamei 严禁任何形式转载。

2802
来自专栏游戏杂谈

手游的一些事儿 - 动态更新

标题本来想叫“手游那些事儿”,想了想还是算了,不想盗用“明朝那些事儿” 的“招牌”(其实还是有盗用的嫌疑,哈哈)。

1592
来自专栏python3

python简介

1.系统编程:提供API(Application Programming Interface,应用程序编程接口),能方便地进行系统维护和管理,Linux下标志性...

1152
来自专栏假装我会写代码

如何打造一个破千 Star 的开源项目

1234
来自专栏51CTO技术栈的专栏

风靡全国,日活8000万,《王者荣耀》后台技术架构演进!

这个曾经在端游时代主导搭建 RTS 游戏《霸三国》框架的技术团队,在转型做 MOBA 手游《王者荣耀》后为游戏提供了巨大的支持,但这个过程也并非一帆风顺。

1.9K0
来自专栏IT大咖说

mongoDB在互联网金融的应用

摘要 本次分享主要讲mongodb 在互联网金融中交易与非交易部分如何实践,金融行业涉及哪些注意点,又踩过的坑。 ? 什么是P2P ? P2P是一种网上的借贷模...

3276

扫码关注云+社区

领取腾讯云代金券