新闻大数据hadoop算法_数据挖掘十大算法 - 腾讯云开发者社区

、

如果你正在运营一个新闻网站，创建了一个10大热门新闻的列表，你想对你的算法进行调整，看看人们是否更喜欢新的热门新闻组合，你会如何处理？对于更改是否更好，您会根据哪种特征做出决定？

浏览 8提问于2008-09-16得票数 1

1回答

有没有一种正确的方法来衡量迭代算法的加速比？

、

我计划提高Hadoop MapReduce版本的雅可比方法算法的速度，以处理非常大的数据(20.000 ++方程)。据我所知，加速比指的是并行算法比相应的顺序算法快多少。我已经在hadoop mapreduce和顺序版本中实现了Jacobi方法。我目前的加速技术是比较mapreduce和顺序版本，包括重复执行mapreduce和顺序版本30次，执行1次迭代。

浏览 3提问于2013-10-26得票数 0

1回答

新闻文章的在线聚类

、、、、

是否有一种常见的在线新闻动态分类算法？我有一大组按主题分类的新闻。我认为每一个主题都是一个集群。现在我要把突发新闻分类。可能，我需要动态地生成新的主题或新的集群。我使用的算法如下：2)对于每个新链接，我使用dragnet提取内容，然后标记它。( 3)利用sklearn的TfidfVectorizer，找到了所有旧新闻和最后一个新闻的向量表示。 4)在数据

浏览 0提问于2018-04-03得票数 7

1回答

R和MapReduce来查找关联规则

、、、

我刚开始使用hadoop，我需要使用它来计算一个非常大的数据集的关联规则。我不能理解如何使用rules和MapReduce从数据集中发现关联规则。我有事务矩阵，但是我需要做什么才能用hadoop对这个矩阵执行apriori算法？？这是用于执行apriori (程序包规则)的命令。

浏览 1提问于2014-12-09得票数 0

1回答

实时查找类似的文章

、、、、

我想要建立一个大的文档(新闻文章)可搜索的数据库，例如当添加一篇新的文章时，我将能够快速地从其中找到X个最相似的文章。什么是正确的技术/算法/Python框架来解决这个问题？

浏览 0提问于2017-11-07得票数 0

回答已采纳

2回答

我想开始思考如何扩展我为数据分析编写的算法，以便它们可以应用于任意大的数据集。我想知道实现这一点的相关概念(线程、并发、不可变数据结构、递归)和工具(Hadoop/MapReduce、Terracota和Eucalyptus)是什么，以及这些概念和工具是如何相互关联的。采用像R/Hadoop (HRIPE)这样的东西...或者为Python编写包装器以启用多线程或Hadoop访问？我知道这可能会涉及到额外的硬件需求，我想了解一些基本

浏览 2提问于2010-03-10得票数 5

回答已采纳

1回答

使用Clojure对Mahout进行聚类(fkmeans)

、、

我正在尝试编写一个简短的脚本，通过clojure (调用Mahout类)对我的数据进行集群。我有这种格式的输入数据(这是来自的输出)tag_sit image_a 0tag_lorem)(import org.apache.hadoop.fs.Path) (import org.apache.hadoop.io.Se

浏览 2提问于2011-08-25得票数 27

1回答

Facebook / JavaScript API:发布带有外部链接的大图片？

、、、、

使用Facebook，我可以发布带有图片的链接到/feed，但我已经了解到，如果我想要一个大图片，我应该发布到/photos： {'url': 'http://example.com如何发布大图片，链接到外部站点？注意:这里有一个相关的旧堆栈溢出帖子，它指的是使用php，在这里似乎没有帮助：。

浏览 5提问于2015-03-23得票数 0

1回答

Hadoop，蜂箱，动物园管理员等

、、

我开始了解hadoop。我对它有了一些了解，但是当我读到关于Hive，Pig和其他Apache工具时，我感到很困惑。因此，有人能简单地概述一下hadoop和Apache的工具(Hive、Pig、等)，我想知道它们在处理大数据时是如何和在哪里使用的。

浏览 3提问于2014-05-20得票数 0

回答已采纳

5回答

Hadoop一个映射与多重约简

、

我们有一个大的数据集来分析与多个约简函数。所有约简算法都在由同一个映射函数生成的相同数据集上工作。每次读取大型数据集花费太多，最好只读取一次，并将映射的数据传递给多个减少函数。我能用Hadoop做这个吗？我已经搜索了例子和intarweb，但是我找不到任何解决方案。

浏览 11提问于2010-02-25得票数 36

回答已采纳

8回答

智能推荐算法为什么会推荐假新闻？

近期，谷歌要推出一项“Google News Initiative”的项目，目的是清除线上以及突发新闻状况下的虚假新闻。那么，智能推荐算法是如何筛选假新闻的呢？为什么会存在推荐假新闻的情况？

浏览 877提问于2018-03-21

2回答

Java + Hadoop* + NoSql (使用什么组合)*

、、、

我是个新手，我的要求如下：谢谢

浏览 2提问于2010-12-31得票数 1

回答已采纳

1回答

Hadoop Yarn写入本地文件系统

、、、

我有一个使用Hadoop处理1000个小文件的场景。然后，Hadoop作业的输出将用作非Hadoop算法的输入。在当前的工作流中，数据被读取，转换成序列文件，处理后的小文件以序列文件的形式输出到HDFS。然而，非Hadoop算法无法理解序列文件。因此，我编写了另一个简单的Hadoop作业，用于从Sequence File读取结果文件的数据，并创建可供非Hadoop算法使用的最终小文件。这里的问题是，

浏览 20提问于2017-08-21得票数 2

1回答

如何使用Stanford NER CFR训练大型数据集

、、

我使用的是，我想训练一个大的数据集，比如说10万篇新闻文章。我如何训练数据，需要多长时间？我是机器学习领域的新手，我想得到一些方向。问题3:计算似乎是CPU和内存密集型的，我如何克服这些要求？

浏览 1提问于2016-03-04得票数 0

2回答

使用hadoop进行简单统计数据计算的示例

、、

我想扩展现有的聚类算法来处理非常大的数据集，并重新设计了它，使其现在可以通过数据分区进行计算，这为并行处理打开了大门。我一直在研究Hadoop和Pig，我认为一个很好的实用起点是计算我的数据的基本统计数据，即算术平均值和方差。谁能给我一些关于如何使用hadoop计算均值和方差的好示例，和/或提供一些示例代码。谢谢

浏览 2提问于2010-03-31得票数 2

1回答

如何在hadoop中使用mapreduce

我正在尝试使用Mapreduce实现一个算法，在一个大图(大小相当于社交网络)中找到连接的组件。我不熟悉Hadoop，但我听说它可以用。我需要一些使用它的指导。

浏览 0提问于2013-04-11得票数 0

1回答

与MongoDB一起使用Hadoop作为数据库而不是HDFS是否可行？

、、

我在做Hadoop with MongoDB as Database而不是HDFS的研究。所以，我需要一些关于性能和可用性的指导。我的场景我可以从twitter和Facebook获得数据。为了进行hadoop处理，我需要存储。因此，我的问题是，使用Hadoop和Mongo存储诸如twitter提要、facebook帖子等社交网络数据是否可行(或有益)？还是更好地使用HDFS并将数据存储在

浏览 3提问于2013-09-06得票数 4

2回答

Hadoop数据管道应用

、、、

这是我的用法： s

浏览 7提问于2019-11-03得票数 0

1回答

在apache spark/Storm中运行python脚本

、、

我有一个用python编写的算法(不兼容hadoop，即不兼容mapper.py和reducer.py)，它在本地系统(不是hadoop)上运行得很好。我的目标是在hadoop中运行它。选项1: Hadoop流。但是，我需要将这个python脚本转换为mapper和reducer。还有别的办法吗？请帮助其他合适的解决方案。

浏览 0提问于2014-11-29得票数 0

1回答

读取存储在HDF5中的部分数据集-Python2.7

、、、、

我有一个相当大的HDF5文件，其中存储了一个大型的时间序列数据集，其中包含150名参与者的眼球跟踪数据。我想做这样的事情--一次读一个参与者(参与者的列名是"name")，执行一些操作，然后保存到一个较小的数据帧： for name in f['data_collection/events/eyetracker

浏览 3提问于2013-12-02得票数 2

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

在新闻网站上进行A/B测试以提高相关性

有没有一种正确的方法来衡量迭代算法的加速比？

新闻文章的在线聚类

R和MapReduce来查找关联规则

实时查找类似的文章

扩展算法所需的概念和工具

使用Clojure对Mahout进行聚类(fkmeans)

Facebook / JavaScript API:发布带有外部链接的大图片？

Hadoop，蜂箱，动物园管理员等

Hadoop一个映射与多重约简

智能推荐算法为什么会推荐假新闻？

Java + Hadoop* + NoSql (使用什么组合)*

Hadoop Yarn写入本地文件系统

如何使用Stanford NER CFR训练大型数据集

使用hadoop进行简单统计数据计算的示例

如何在hadoop中使用mapreduce

与MongoDB一起使用Hadoop作为数据库而不是HDFS是否可行？

Hadoop数据管道应用

在apache spark/Storm中运行python脚本

读取存储在HDF5中的部分数据集-Python2.7

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐