腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(914)
视频
沙龙
1
回答
如
何在
python
抓取
过程中
高效
解析
大
列表
数据
?
python
、
list
、
numpy
、
parsing
、
screen-scraping
我目前正在做一个
数据
抓取
项目,它需要我在每个循环中加载和保存我的
数据
。你可能想知道我为什么要这么做?好吧,在我没有在每次循环之间加载和保存
数据
的情况下
抓取
之前,如果脚本在最后一次迭代之前崩溃(由于超时,奇怪的URL或任何你能想象到的东西,每次都会发生),我就会丢失所有的
数据
。FOUND_DATA.append(NEW_DATA) np.save("some_directory/FOUND_DATA.npy", LOT_DATA) 我相信一定有
浏览 15
提问于2020-04-04
得票数 0
1
回答
从javascript生成的网格中
抓取
python
、
selenium
我试着用
Python
语言做一个项目,它需要来自的金属乐队的完整
列表
。问题是,当你访问任何字母时,你不会得到完整的
列表
,而只是最多500个波段的一
大
块(我只需要他们的urls )。要获得下一个块,你应该点击一个按钮,而我既不知道如
何在
代码中触发按钮,也不知道如
何在
它之后
抓取
数据
。我在谷歌上搜索的是我应该使用selenium,但我不确定,也不能理解它的真正用途。此外,我尝试使用来
抓取
数据
,但是,脚本似乎太旧了,不能正常工
浏览 1
提问于2020-05-10
得票数 0
1
回答
python
中的Regex字符串检索
python
、
regex
、
string
如
何在
python
中
解析
这个正则表达式? regex2 = re.findall('-in-([A-Za-z-]+),-([A-Z]{2})',str(job.url))[0] 这里我得到了两个元组,
如
(‘亚特兰
大
’,'GA'),而不是需要得到“亚特兰<em
浏览 1
提问于2012-04-27
得票数 0
3
回答
如何通过
python
解析
/提取mediawiki标记的文章中的
数据
python
、
api
、
parsing
、
mediawiki
、
extraction
现在,我正在使用各种regexes将mediawiki标记中的
数据
“
解析
”到
列表
/字典中,以便可以使用本文中的元素。例如: 这可以从API中完成,但我希望只有一个API调用 减少带宽使用)。
浏览 4
提问于2009-12-28
得票数 12
回答已采纳
1
回答
用于
Python
脚本的web GUI (Django)
jquery
、
python
、
django
、
user-interface
我有一个程序,从用户那里获取一个URL,
抓取
整个网站,并返回一个包含每个URL的
解析
数据
的所有URL的
列表
。self.data_1 = "string_1" self.data_3 = "string_3"我想把这个程序作
浏览 1
提问于2017-06-24
得票数 1
回答已采纳
3
回答
基于
Python
的不规则字符串
解析
python
、
django
、
string
、
parsing
、
web
我是
python
/django的新手,我正试着从我的
抓取
器中找出更有效的信息。目前,
抓取
器获取漫画书名
列表
,并将它们正确地划分为CSV
列表
,分为三个部分(发布日期、原始日期和标题)。然后我将当前日期和标题传递到
数据
库的不同部分,这是我在Loader脚本中所做的(将mm/dd/yy转换为yyyy-mm-dd,保存到"pub_date“列,标题转到" title”列)。我不确定如何进行这种严格的
解析
。我如何
高效</e
浏览 0
提问于2011-10-09
得票数 2
2
回答
Python
反向索引效率
python
、
performance
、
search-engine
、
inverted-index
我正在编写一些
Python
代码,以实现我最近学到的一些概念,这些概念与倒排索引/帖子
列表
有关。我对
Python
非常陌生,在某些情况下我很难理解它的效率。理论上,创建一组文档D的倒排索引(每个文档都具有唯一的ID doc_id )应该包括:
解析
/对D中的每个文档执行词法分析,删除停止词,执行词干等。5通常通过一个包含元
数据
(术语频率、字节偏移)的单词的字典和一个指向list
列表
的指针(发生在其中的文档
列表
)来执行。发布
列表
通常作为允
浏览 3
提问于2012-03-02
得票数 4
回答已采纳
2
回答
如何
解析
JSON以获得
Python
中的特定值
python
、
json
、
object
、
pprint
请考虑下列
数据
: "-L0B6_KJJlhWIaV96b61" : {现在,如
何在
Python
中
解析
这个JSON文件的名称和文本?我有这么
大
的
数据
集。
如
您所见,在本例中,对象是可变的,所以我不能简单地编写: pprint(data[o
浏览 1
提问于2018-01-06
得票数 2
回答已采纳
7
回答
解释
python
生成器以获取长长的
列表
python
、
oop
、
data-structures
我是一个新的
python
程序员,到目前为止,我所理解的是,“what”关键字返回一个对象,而不是生成器函数只返回生成器对象。因此,如果我有一个包含10K项的
列表
,我如
何在
不在
列表
中附加值的情况下制作智能的pythonic解决方案,并使其变大。这意味着,我将一些值附加到一个
列表
中,最后创建了一个
大
列表
,如下所示: final_list = [] for i in range(0,10000):final_list.append
浏览 1
提问于2012-05-15
得票数 0
回答已采纳
2
回答
Haskell的哪个XML
解析
器?
xml
、
haskell
、
parsing
我正在尝试编写一些应用程序,对存储在非常
大
的XML文件(从10到800MB)中的
数据
执行分析。每组
数据
都存储为单个标签,具体
数据
指定为属性。我目前是来自HaXml的saxParse,在使用它的
过程中
,我对内存使用不满意。在
解析
15Mb的XML文件时,它消耗了超过1 1Gb的内存,尽管我尽量不将
数据
存储在
列表
中,并立即处理它。(extractAttrs "row")) 其中“proc”-过程,执行
数据
从属性到记录的转
浏览 0
提问于2009-06-26
得票数 10
回答已采纳
1
回答
检查包是否从源树中导入
python
、
package
、
python-import
因此,我们希望检查用户是否在源树中运行import Foo,但是如
何在
支持
Python
3和2的情况下做到干净、
高效
和可靠?我们考虑了以下几点: 创建一个仅存在于源树中的虚
浏览 1
提问于2019-04-29
得票数 10
2
回答
SAS和Web
数据
python
、
statistics
、
sas
我“从小到
大
”使用SPSS学习统计,随着他们最近决定将他们的统计引擎与R和
Python
集成在一起,我发现很难激发学习其他任何东西的愿望。我的
Python
不是很好,但我可以应付我想要完成的大多数任务。诚然,我确实看到了SAS的好处,但我已经学会了将SPSS和
Python
结合起来做一些相当酷的事情,比如从web上
抓取
数据
并实时分析。您能否从web获取
数据
并将其
解析
为SAS
数据
集?这对我来说是个破坏交易的因素。如何与API接口,
如<
浏览 1
提问于2009-10-27
得票数 1
回答已采纳
1
回答
无法使用xpath找到img元素
python
、
html
、
selenium
、
web-scraping
、
xpath
有人能告诉我为什么下面的代码不会返回一个表情符号属性..。import timeimport re driver = Chrome()driver.get("https://twitter.com") time.slee
浏览 2
提问于2022-08-16
得票数 3
1
回答
Python
- ftplib -通用文件
列表
收集器
python
、
ftp
、
ftplib
我一直在做一个
Python
项目。主要目标是检索文件(名称和上次使用时间)。谢谢。
浏览 0
提问于2020-10-27
得票数 1
3
回答
如何删除
Python
中两个双括号之间的文本
python
、
string
、
parsing
、
beautifulsoup
、
markdown
我正在进行一些标记,将其转换为html,然后在没有标记的情况下
解析
出文本,只给我留下一组清晰的字母数字字符。有没有人知道如
何在
Python
中
高效
地实现一个
解析
器来清除这个问题呢?
浏览 3
提问于2020-03-31
得票数 1
回答已采纳
1
回答
带有的Docker
python
、
docker
、
google-cloud-platform
我们希望使用
Python
查询gcr.io。图像存储在GCS中,但作为一个
大
的摘要
列表
,没有元
数据
。无法告诉回购或标签 关于如
何在
Python
中轻松地列出GC
浏览 0
提问于2020-04-27
得票数 3
回答已采纳
1
回答
在mysql中运行大型查询
python
、
mysql
、
large-files
、
large-data
我需要
抓取
数据
库中的行,其中包含匹配175,000项中任何一项的项,并将结果转换为csv文件(稍后我将使用
python
脚本
解析
和分析该文件)。脑海中浮现的一些问题是:您是否能够将这么
大
的项目
列表
输入到工作台sql查询中(内存不足,无法复制它)?网络会支持这么
大
的
数据
传输吗?其他我不知道的事?查询和获取大量
数据
的明智方法是什么?
浏览 1
提问于2017-08-18
得票数 2
回答已采纳
9
回答
BeautifulSoup和Scrapy crawler有什么区别?
python
、
beautifulsoup
、
scrapy
、
web-crawler
我想做一个网站,显示亚马逊和易趣产品价格的比较。其中哪一个会工作得更好?为什么?我对BeautifulSoup比较熟悉,但对Scrapy crawler不太熟悉。
浏览 323
提问于2013-10-30
得票数 146
回答已采纳
2
回答
Haskell中满足条件的N个子集
algorithm
、
haskell
、
optimization
、
complexity-theory
我想写一个函数,它接受一个
列表
并返回满足给定条件的所有可能子集的
列表
。例如,我想拥有所有的3
大
小子集,1,2,3,4,但没有包含2和3的子集。但对于更大的问题,
如
kCombinations [1..30] 6,它需要很长时间才能完成。 你能告诉我如
何在
生成所有组合的
过程中
过滤掉一些
数据
吗?
浏览 0
提问于2014-12-14
得票数 1
回答已采纳
2
回答
用ATpy和numpy
高效
读取大文件?
python
、
numpy
、
scipy
、
large-files
、
astronomy
我尝试用ATpy读取非常
大
的文件,
数据
以numpy数组的形式出现。但是对于非常
大
的文件,计算机无法处理它。我认为在
解析
开始之前,所有的
数据
都会存储在内存中,这对于2 2GB的文件是不可行的。那么,我可以使用什么来处理这些大文件呢?我看过很多帖子,人们将
数据
分成块,并使用for循环遍历每一行,但考虑到这些文件的性质以及我需要对这些数组执行的各种操作,我认为这在这里是行不通的。我是
Python
的新手,所以我喜欢清楚地表达出来的答案(即不依赖于大量的隐式编码知识)。必须有一种
浏览 0
提问于2013-04-14
得票数 1
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
对象存储
云点播
即时通信 IM
活动推荐
运营活动
广告
关闭
领券