我正在编写一个网络爬虫。所有链接都存储在MySQL数据库中。因为我将在多个节点上运行爬虫程序,所以我需要尽可能快地将URL设置为“正在爬行”,以保持高效。
我的网络爬虫是用C#编写的。现在,它下载URL和ID,然后将URL设置为使用ID爬行。问题是它需要两个不同的查询。有没有办法把它们结合在一起呢?
下面是我当前的代码:
string stm = "SELECT * FROM pages WHERE IsCrawled = 0 LIMIT 1;";
MySqlCommand cmd = new MySqlCommand(stm, conn);
cmd.ExecuteScalar();
id = -1;
using (rdr = cmd.ExecuteReader())
{
if (rdr.Read())
{
URL = rdr.GetString(1);
id = rdr.GetInt32(0);
}
}
MySqlCommand update = new MySqlCommand("UPDATE pages SET IsCrawled = 1 WHERE ID = '"+id+"'", conn);
update.ExecuteScalar();
再一次,我想把这些查询组合在一起。
发布于 2014-03-02 21:59:00
要进行更新并选择all in one,您可以执行此操作,但是,我不确定您是否可以在程序流的上下文中执行此操作。
UPDATE pages SET IsCrawled = 1 WHERE ID IN
(SELECT ID FROM pages WHERE IsCrawled = 0 LIMIT 1;)
https://stackoverflow.com/questions/22128194
复制相似问题