python抓取小说_js 抓取小说_在Python Web抓取中纠结于抓取小说标题及其链接 - 腾讯云开发者社区

python、web-scraping、beautifulsoup

试图抓取文章类别，但只抓取小说的名称和URL。

浏览 17提问于2020-05-09得票数 0

1回答

如何在没有html类的情况下从单行文本中提取信息？

python、regex、web-scraping、scrapy

我正在尝试使用scrapy和python.The抓取我的第一个网站(https://news.ycombinator.com/jobs)，我需要提取的信息如下：-正在招聘的公司的名称-公司的位置-广告招聘的职位例如，ZeroCater (YC W11)正在聘请科幻小说《必须热爱食物》的首席工程师仅有正则表达式不足以提取此信息。这个问题有没有简单有效的解决方案？我尝试过python regex。

浏览 9提问于2019-05-14得票数 0

回答已采纳

1回答

在Permalink中持久化Wordpress自定义分类标签

wordpress、rewrite、custom-taxonomy

例如，用于其中小说/惊险小说是标准的层次结构。所以我不需要为每个编写者重新创建类别结构。我可以将这个标签持久化，在会话变量中抓取写入器(‘get_query_var’)是没有问题的；并修改url以适合使用它来持久化写入器标签。在类别之间导航时，这将维护标记。直到你回去换了作者。我可以将标签附加到固定链接的末尾，没有问题： /%类别%/%邮寄名称%/%作家%//

浏览 1提问于2012-11-07得票数 2

4回答

“Python词典”中的键计数

python、python-3.x、dictionary

假设我有这样一个Python字典：我怎样才能通过把小说和非小说书籍的种类加起来来增加一本新的词典呢？我将从这样一本空字典开始：换句话说，假设我

浏览 8提问于2020-04-12得票数 0

回答已采纳

3回答

将书的作者归类为虚构与非虚构

python、api、amazon、categorization

我想把这个列表分为“小说作者”和“非小说作家”。如果一位作者同时写了两篇文章，那么多数人就有了投票权。我查看了亚马逊产品搜索API:我可以按作者搜索()，但没有办法找到图书类别(小说与rest)： >>> node = api.item_search('Books', Author='Richard Dawkins我更喜欢用Python做这件事。

浏览 2提问于2011-02-05得票数 2

回答已采纳

2回答

我可以有条件地更改Wordpress中the_content()返回的内容吗？

php、wordpress

我正在Wordpress中构建一个需要一些自定义功能的儿童主题(例如，我想向作者展示‘小说’类别的内容，而不是‘小说竞赛’类别的内容，尽管它们在其他方面看起来是一样的)。然而，似乎我只能抓取一大块内容。我的变通方法是将部分内容设置为"display: none“的样式，这取决于所使用的模板，但是有没有办法有条件地更改上面代码返回的实际内容？

浏览 1提问于2011-08-12得票数 3

回答已采纳

3回答

我在哪里可以找到在网络上获得一个转储的原始文本？

parsing、text、nlp、wikipedia

我希望在我写的程序中做一些文本分析。我正在寻找类似于维基百科转储(download.wikimedia.com)中提供的原始形式的替代文本来源。

浏览 1提问于2010-08-02得票数 5

2回答

删除双文件内容

python、file

我以前用python编写了一个文件，在第二次运行脚本时，我写了两次相同的内容。以下是我的文件内容： Story1:短篇小说是一部散文小说，通常可以在一次会议中读到，重点是一个独立的事件或一系列相关的事件，目的是唤起一种“单一效果”或情绪，然而，这也有很多例外。Story1:短篇小说是一部散文小说，通常可以一次阅读，专注于一次独立的事件或一系列相关事件，目的是唤起”单一效果“或情绪，然而，这方面有很多例外。字典的定义是”一种虚构的散文叙事，它比通常只处理少数几个人物的小说更短，而且往往着

浏览 0提问于2019-05-24得票数 0

回答已采纳

1回答

如何用C#编写Python“mystring”

c#、python、api

短篇小说:我试过了但看起来不管用..。“长故事”：我正在尝试调用一个API，并提供了下面的python示例代码：encoded_credentials = b"Basic

浏览 2提问于2014-12-22得票数 1

回答已采纳

1回答

如何在网络抓取后过滤文本

python-3.x、web-scraping

所以我试着在网站上搜索这个免费提供小说的网站，比如这个页面：我试图只提取章节的标题和正文。查找标题很容易，因为它是h4格式的，但是章节的主体没有用任何特定的div标记分隔，所以我不能只是将其隔离。

浏览 15提问于2019-07-16得票数 0

1回答

shebang是否会覆盖python解释器路径

python

我想知道如果在python脚本中指定了shebang，它会覆盖调用者吗？例如，假设我有一个test.py， #!/usr/bin/python3 print(“hello world”) 然后我这样调用它: /usr/bin/python2 test.py 哪个python版本会将hello world称为纸质小说

浏览 4提问于2020-09-29得票数 0

回答已采纳

2回答

命名实体识别黄金标准语料库的样本大小

python、nlp、named-entity-recognition、sample-size、brat

我有一个包含170部荷兰文学小说的语料库，我将在其中应用命名实体识别。为了评估现有的荷兰语NER标记器，我想在这个语料库的随机样本中手动标注命名实体-为此，我使用。我编写了一个Python脚本，在句子级别输出我的语料库的随机样本。我的问题是:就每本小说的句子数量而言，随机样本的理想大小是多少？目前，我在每本小说中随机使用了100个句子，但这导致了一个相当大的随机样本，几乎包含21626行(这是大量的手动注释，这导致brat的工作环境很慢)。

浏览 29提问于2016-11-22得票数 3

1回答

从txt文件导入小说/非小说

python

我学习文学，并试图弄清楚如何将一系列小说从.txt或其他格式导入到python中，以处理不同的词频、相似性等。我希望尝试建立一些定量的方法来定义一个流派，而不仅仅是主题。我特别想看看这些小说中是否出现了特定的词串、概念和位置。类似于：(http://web.uvic.ca/~mvp1922/modmac/)。然后，我想把重点放在一部小说上，使用过去的数据作为比较，并分别分析它的人物运动和与其他人物的互动。如果这个问题是模糊的，不清楚的，或者仅仅是一个愚蠢的问题，我非常抱歉

浏览 22提问于2019-01-23得票数 0

回答已采纳

1回答

使用Python从txt文件中删除paratext (或“噪音”)

python、enumerate、data-cleaning

我正在准备一个由170部荷兰小说组成的文本文件集。我是一位文学学者，对Python和一般编程都比较陌生。我想要做的是编写一个Python脚本，用于从不属于小说实际内容(即故事)的每个.txt文件中删除所有内容。我想删除的是:添加了作者的传记、简介以及将ePub转换为.txt所附带的其他信息。我的想法是手动决定每一个.txt文件，在哪一行，小说的实际内容开始和结束。inputfile.close() removeparatext(inputFilename,

浏览 0提问于2016-10-14得票数 1

回答已采纳

2回答

加快潜在的大链式BeautifulSoup任务

python、performance、web-scraping、beautifulsoup

我对网络抓取非常陌生(我对html几乎一无所知，这是我第一次使用BeautifulSoup)，我正在制作一个程序，基本上可以让我在网上为小说生成PDF或epubs。我编写了代码，从该特定章节的任何链接中获取网络小说所有章节的链接，并将其全部放入列表中，但这需要很长时间。每个链接大约有一秒钟。考虑到有些小说实际上有一千到两千章，这就像半个小时来获取所有的链接，而这个程序甚至还没有得到每个链接的正文并将它们编译成PDF，有什么方法可以让这个代码更快吗？注意:我弹出链接中的最后一个值，因为它比检测导航-下一个值是在导航中引用的m

浏览 11提问于2022-08-13得票数 1

回答已采纳

3回答

使用Python从文本文件创建n个单词的(随机)示例

python、text、random、nlp、named-entity-recognition

我的语料库包括170部荷兰小说。我正在编写Python脚本，以便为每本小说生成一个特定数量单词的随机样本(稍后我将使用它进行注释)。所有小说都将存储在同一个目录中。下面的脚本用于为该目录中的每个小说生成n行的随机示例：import osimport sysrandom_

浏览 1提问于2016-10-14得票数 4

回答已采纳

1回答

我的C程序将只读取文件的第一行

c、file-io、fgets

(直接从文本文件复制，这正是我所看到的，很抱歉) 11觉醒的演员阵容，克里斯汀8.7 26389恐怖 76哈克贝利·费恩·吐温，马克8.7·吐温111219男性友谊--小说；幽默故事；密苏里州--小说；种族关系--小说；成长小说；芬恩，哈克贝利(虚构人物) --小说；逃亡奴隶--小说；密西西比河--小说；冒险故事；离家出走的孩子--小说；男孩--小说 84科学怪人；或者，现代普罗米修斯·雪莱，玛丽·沃尔斯通克拉夫特12.6 74959

浏览 34提问于2020-10-23得票数 0

回答已采纳

1回答

熊猫使用独特的行值作为像枢轴这样的列

python、pandas、numpy

数据集:每年售出的前50部小说体裁专栏:小说，非小说(只有两个独特的价值)“{‘Name’：{0：‘10天绿色Smoothie Cleanse'，1：'11/22/63:一本小说’，2：”12条生命规则:解决混乱的良药“}，df.groupby(['Author

浏览 11提问于2022-09-09得票数 -2

1回答

计算具有特定元值的自定义post类型

custom-post-types、advanced-custom-fields、count

在模板中，我们需要将具有book_type的图书数量显示为非虚构短篇小说我们使用ACF，上面的字段被设置为复选框多重选择。所以一本书可以是小说+短篇小说，小说+小说等等。我们只需要计算小说。

浏览 0提问于2019-06-14得票数 0

回答已采纳

1回答

用Python进行观点分析的方法

python、python-3.x、python-2.7、nlp、text-analysis

我基本上是在寻找方法来确定在任何小说中有多少单词是从不同的字符角度写成的，最好是使用Python 就像这样：

浏览 1提问于2018-03-28得票数 2

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

在Python Web抓取中纠结于抓取小说标题及其链接

如何在没有html类的情况下从单行文本中提取信息？

在Permalink中持久化Wordpress自定义分类标签

“Python词典”中的键计数

将书的作者归类为虚构与非虚构

我可以有条件地更改Wordpress中the_content()返回的内容吗？

我在哪里可以找到在网络上获得一个转储的原始文本？

删除双文件内容

如何用C#编写Python“mystring”

如何在网络抓取后过滤文本

shebang是否会覆盖python解释器路径

命名实体识别黄金标准语料库的样本大小

从txt文件导入小说/非小说

使用Python从txt文件中删除paratext (或“噪音”)

加快潜在的大链式BeautifulSoup任务

使用Python从文本文件创建n个单词的(随机)示例

我的C程序将只读取文件的第一行

熊猫使用独特的行值作为像枢轴这样的列

计算具有特定元值的自定义post类型

用Python进行观点分析的方法

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐