首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

用Python来找合适的妹子(一)

用Python做有趣的事情 ? 时间真的有点仓促,匆匆忙忙撸完这篇文章. 虽然今天是情人节,但还是要关心一下单身狗们,帮助他们俩脱单。 古人云:知己知彼,百战不殆....好好去了解一下妹子们的内心想法,早日脱单! 这次我在一个某知名婚恋网站,抓取了一些数据,对她们的内心读白进行分析. 我这次筛选条件:女性,年龄20-30,学历本科,就这些条件. ?...放心好了,她们都是追求精神满足而非物质,大部分都是要找生命中的另一半,那她们的另一半会是你吗?...'' print nick, age, height, address, heart, img f.write(heart) 生成词云的代码之前的文章里面有...时间确实太仓促了,我想做一个更好一点,但时间不够了 下一步准备: 我们可以输入自己的需求,然后进行筛选.

43530

用 Python 给自己找个合适的妹子

好好去了解一下妹子们的内心想法,早日脱单! 这次我在一个某知名婚恋网站,抓取了一些数据,对她们的内心读白进行分析....我这次筛选条件: 女性,年龄20-30,学历本科 ,就这些条件. 3000条妹子内心读白词云如下: 放心好了,她们都是追求精神满足而非物质,大部分都是要找生命中的另一半,那她们的另一半会是你吗?...一个高效获取数据的办法.由于并没有什么模拟的操作,一切都可以人工来控制,所以也不需要打开网页就能获取数据!...条件拼装 然后记得数据转json格式 然后对json数据进行提取, 把提取到的数据放到文件或者存储起来 主要学习到的技术: 学习requests+urllib 操作execl 文件操作 字符串 异常处理...headers) response = urllib2.urlopen(req).read() # print response self.parse_data(response) page += 1 字段提取

50220
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    怎样用Python提取图片中的文字

    有时候在爬取数据的时候,需要读取网页中图片中的信息。在读取和处理图像、图像相关的机器学习以及创建图像等任务中,Python一直都是非常出色的语言。...Pillow 算不上是图像处理功能最全的库,但是它拥有你需要使用的全部功能,除非你 要用 Python 重写一个 Photoshop 或进行更加复杂的研究。它也是一个文档健全且十分易用 的库。...Tesseract是一个 Python 的命令行工具,不是通过 import语句导入的库。...安装之后,要用要用tesseract命令在Python的外面运行 今天使用Tesseract来实现一个提取图片中信息的程序。下面这张图片,就是我们需要读取的对象: ?...你可以用 Pillow 库挑选图片进行清理,但是如果想把文字加工成普通人可以看懂的效果,还需要花很多时间去处理。这是只是一个简单的实例。 如果觉得内容还不错,分享给更多朋友,一起提升编程技能。

    15.9K20

    用 Python 提取 PDF 文本的简单方法

    你好,我是征哥,一般情况下,Ctrl+C 是最简单的方法,当无法 Ctrl+C 时,我们借助于 Python,以下是具体步骤: 第一步,安装工具库 1、tika — 用于从各种文件格式中进行文档类型检测和内容提取...2、wand — 基于 ctypes 的简单 ImageMagick 绑定 3、pytesseract — OCR 识别工具 创建一个虚拟环境,安装这些工具 python -m venv venv source...wi text_raw = parser.from_file("example.pdf") print(text_raw['content'].strip()) 这还不够,我们还需要能失败图片的部分...https://github.com/tesseract-ocr/tessdoc/blob/main/Data-Files-in-different-versions.md 最后的话 从 PDF 中提取文本的脚本实现并不复杂...,许多库简化了工作并取得了很好的效果。

    1.1K10

    用Python从URL中提取域名的方法

    本文将使用实际的例子来解释Python的urlparse() 函数来解析和提取URL中的域名。我们还将讨论如何提高我们解析 URL 的能力和使用它们的不同组件。...用urlparse() 从 URL 中提取域名urlparse() 方法是Python的urllib 模块的一部分,当你需要将URL拆分成不同的组件并将它们用于不同的目的时非常有用。...这个函数的返回值是一个对象,它就像一个数组,有六个元素,如下所示:scheme – 指定我们可以用来获取在线资源的协议,例如,HTTP/HTTPS 。...netloc – net 表示网络,loc 表示位置;所以它表示URLs的网络位置。path – 一个网络浏览器用来访问所提供的资源的特定途径。params – 这些是path 元素的参数。...这样,我们可以得到我们的URL解析,并在我们的编程中使用其不同的组件来达到各种目的。

    38560

    有关如何使用特征提取技术减少数据集维度的端到端指南

    为了避免此类问题,有必要应用正则化或降维技术(特征提取)。在机器学习中,数据集的维数等于用来表示数据集的变量数。...特征选择和特征提取之间的区别在于,特征选择的目的是对数据集中现有特征的重要性进行排名,并丢弃次要的特征(不创建新特征)。 在本文中,将引导如何使用Kaggle蘑菇分类数据集作为示例来应用特征提取技术。...这是一个不错的选择,因为在较低维度的空间中投影数据时,最大化每个类别的均值之间的距离会导致更好的分类结果(由于减少了不同类别之间的重叠)。...局部线性嵌入是基于流形学习的降维技术。歧管是D维尺寸的对象,它嵌入到更高维的空间中。流形学习的目的是使该对象在其原始D维度上可表示,而不是在不必要的更大空间中表示。...自动编码器与其他降维技术之间的主要区别在于,自动编码器使用非线性变换将数据从高维度投影到低维度。

    1.4K20

    高级性能测试系列《14.响应的提取--json提取器:一个json提取器写多个提取式、正则提取器:万能正则式怎么用?》

    matchNr可以作为一个变量名称直接用。 2.get请求参数的类型没有json格式 没写消息头,运行成功,是因为get请求参数的类型没有json格式,约定俗成的不用这种方式。...再写一个json提取器。从性能的角度来说,多一个元件会多消耗一些资源。 一个json提取器写多个提取式。 1)用英文的分号; 例如..typeDesc;..typeId。...配置json提取器 运行结果 2)多个之间用逗号会报错 多个之间是用的英文分号,用英文逗号不行。 运行后报错 运行后报错 要提取几个值,这些地方就要对应的填写。...比如,在注册接口提取出来了jqid: 登录的接口用到从注册接口提取出来的值:jqid,作为传入参数: 三、正则提取器 session不会在响应信息里面,所以就不能用json提取器,用正则提取器。...运行结果 4.Jmeter正则表达式 常用正则式: 左右边界值,中间匹配内容用()代表用户括号内正则式匹配。 .匹配除换行符以外的所有字符。 *匹配0次或多次。 +匹配1次或多次。 ?

    2.8K20

    R语言列筛选的方法--select

    我们知道,R语言学习,80%的时间都是在清洗数据,而选择合适的数据进行分析和处理也至关重要,如何选择合适的列进行分析,你知道几种方法? 如何优雅高效的选择合适的列,让我们一起来看一下吧。 1....使用R语言默认的方法:列选择 这一种,当然是简单粗暴的方法,想要哪一列,就把相关的列号提取出来,形成一个向量,进行操作即可。...而且,后面如果想要根据列的特征进行提取时(比如以h开头的列,比如属性为数字或者因子的列等等),就不能实现了。 这就要用到tidyverse的函数了,select,rename,都是一等一的良将。...只是单独的修改名称,并没有提取出来。...library(tidyverse) select = dplyr::select 6. 提取h开头的列 这里,用starts_with,会匹配开头为h的列。

    7.8K30

    AI网络爬虫:用kimi提取网页中的表格内容

    一个网页中有一个很长的表格,要提取其全部内容,还有表格中的所有URL网址。...,保存到表格文件freeAPI.xlsx的第1行第1列; 在tr标签内容定位第1个td标签里面的a标签,提取其href属性值,保存到表格文件freeAPI.xlsx的第1行第6列; 在tr标签内容定位第...2个td标签,提取其文本内容,保存到表格文件freeAPI.xlsx的第1行第2列; 在tr标签内容定位第3个td标签,提取其文本内容,保存到表格文件freeAPI.xlsx的第1行第3列; 在tr标签内容定位第...4个td标签,提取其文本内容,保存到表格文件freeAPI.xlsx的第1行第4列; 在tr标签内容定位第5个td标签,提取其文本内容,保存到表格文件freeAPI.xlsx的第1行第5列; 循环执行以上步骤...extracted_data = [cell.get_text(strip=True) for cell in data[:5]] # 将提取的数据存储为DataFrame df = pd.DataFrame

    25210

    【Excel】用公式提取Excel单元格中的汉字

    昨天一个前端的朋友找我帮忙用excel提取代码中的汉字(字符串),可算费了劲儿了,他要提取的内容均在单引号中,但问题是没有统一的规律,同一个单元格可能存在多个要提取的内容,而且汉字中间也夹杂其他字符。...所以总结了一下提取汉字的几种情况。 一、用公式提取Excel单元格中的汉字 对于一个混杂各种字母、数字及其他字符和汉字的文本字符串,要提取其中的汉字,在Excel中通常可用下面的公式。...例如下图A列中的字符串,要在B列提取其中的汉字(或词语)。 ? 如果汉字位于字符串的开头或结尾,用LEFT或RIGHT函数即可提取,例如上图中A2:A4区域中的字符串。...用MATCH函数取得第一个“2”的位置,即第一个汉字的位置,最后再用MID函数提取汉字。 使用上述公式时要求字符串中的汉字是连续的,中间没有其它字符分隔。...返回Excel工作表界面,在B14单元格中输入公式: =提取汉字(A14) 即可取得A14单元格字符串中的所有汉字。 二、用公式提取引号(某2个相同字符)之间的内容 ?

    8.3K61

    @dbsnake-用合适的函数索引来避免看似无法避免的全表扫描

    昨天听了@dbsnake的SQL方法论,感觉比第一次要更有感觉,希望对实际工作能有帮助。 昨天讲到一处利用reverse函数建立索引,避免全表扫描的case,颇有感触,拿出来试一下。...client           0  sorts (memory)           0  sorts (disk)           2  rows processed 这里建立了name的B...这里讲到%bc不能用索引的原因是因为索引键值按照索引二进制的顺序排序,%在前就无法精确定位,因此无法使用索引。既然%在后面可以使用索引,那就想办法将%的条件放在后面组织。...,很快的时间内这些数据还可能在其中,没被age out,所以再次执行SQL时,就可能物理读是0。...总结: 以上的示例就是@dbsnake讲的“用合适的函数索引来避免看似无法避免的全表扫描“。

    60440

    教你用SQL生成一张带「农历」的日期维度表

    (20); DECLARE @END_DATE VARCHAR(20); DECLARE @DATE_COUNT INT; SET @i=0; --定义一年的开始日期,用CONCAT函数将年份和月份日期拼接起来...执行存储过程 EXEC proc_calendar 2019 结果如下: 我们去查了一下日历,验证结果是正确的 日期维度表作用 可能有同学会问,花这么大力气就写了个这个,到底有什么用啊?...既然叫维度表,那肯定是跟维度有关了,有了这个维度表,我们可以通过多维数据集来查看不同日期维度的具体数据,特别是应用在可视化报表开发方面。...下面就是一个比较简单的Power BI报表,这里我们就使用到了日期维度表中的年月。...Power BI效果图 至此,一个包含农历的完整日期维度表就生成了,有兴趣的小伙伴可以用MySQL或Oracle进行改写一下。

    23510

    虚拟化场景用什么调度器更合适? 看看来自Amazon的Coscheduling

    比如操作系统的任务调度算法,从FIFO到CFS以及多级反馈队列,都是能一两句话说清楚并让人理解的,同时其代码实现也是及其精炼的。 最近出来的一个新的调度算法有点不同。...它也是可以用一两句话说清楚的,但是在实现上却看上去很复杂。 这就是Coscheduling。...一组task 一组进程按照业务逻辑相关性来分组,比如同一个进程的不同线程,同一个用户的不同进程。 排他式 排他式的意思是,同一组的CPU同时只能运行同一个task组内的task或者idle。...这是 并行操作系统调度 的正确思路,和传统的Linux调度器核心是孑然不同的。...如果我们把时间和空间看作是效果等同的两个维度,其实我们会发现在内存和cache的关系这个空间维度上,早就实现了类似的进化,从直接映射,到全相联映射,再到组相联映射,从最初的一个内存位置映射到一个缓存位置

    1.1K30

    手把手教你用Python提取PDF中的表格

    前言 pdfplumber 是一个开源的 python 工具库 ,它可以轻松的获取 PDF 文本内容、标题、表格、尺寸等各种信息,今天来介绍如何使用它来提取 PDF 中的表格。...下面将 PDF 中的表格提取出来,并保存到 Excel 中。....pdf' pdf_2020 = pdfplumber.open(read_path) 复制代码 pages 属性包含 PDF 中每页的信息,循环每页内容,使用 extract_table() 方法提取每页中的表格数据...pd.concat([df_detail, result_df], ignore_index=True) 复制代码 此时DataFrame中数据如下: 可以看到通过 extract_table() 提取后的数据有许多包含缺失值的列...result_df.columns = ['奖项', '作品编号', '作品名称', '参赛学校', '作者', '指导老师'] 复制代码 到现在我们就成功将表格信息完整的提取出来了!

    1.8K20

    用户的声音 | 文档结构化信息提取方案测评:LLM、开源模型部署与云端API,谁是合适选择?

    文档预处理之文本化近日,我们收到来自专业用户的使用心得,通过测试浅析结构化信息提取技术,辅助完成技术选型。...结构化信息提取的重要性数据作为大模型时代的核心生产资料,其结构化处理能力直接影响AI系统的实用价值。...当前结构化信息提取技术虽呈现多样化发展,但对于开发者而言,结构化信息提取的“落地”与“可用性”才是真正的考验,研究论文中的指标和高精度模型在生产环境中可能面临性能瓶颈、成本过高、部署难度大等现实挑战。...测试代码用的是单线程,由于速度较慢远低于预期,遂只拆出前30页进行测试。效果如下:可以看到,问题还是比较多的,比如幻觉问题:大模型幻觉出了一些奇怪的标题。识别结构不稳定:此处本应是一个表格。...其算力要求相对低的特点也使其适用于本地部署,一个广受好评的解决方案是MinerU,作为开源的数据提取工具,目前在github上已经有24.3k stars.测试minerU的安装相对复杂些,且如果要安装

    11810

    RunTSNE二维及三维结果可视化

    ()同样起非线性降维作用的还有RunTSNE() 在单细胞PCA降维结果理解中,我们运行完RunPCA之后,一共会保留下来50个维度,根据不同维度的相关性基因可以区分不同的细胞类群。...: object:对应的seurat对象,这里用的是pbmc示例数据 reduction:对tSNE使用哪种降维方法,一般默认是pca dims:对应的PCA维度 dim.embed:生成的tSNE嵌入的维度空间...(默认为2),也可以根据我们的需要设置对应的维度空间 降维结果也是存放在reductions里面 和PCA结果不同的是,TSNE降维的结果只有cell.embeddings里面是有数值的,储存着细胞的坐标信息...单细胞周更中,有一期就是对TSNE和UMAP图进行美化——tsne及umap图美化 使用ggplot2美化: 提取tSNE二维坐标数据,以及细胞分群情况celltype 计算二维坐标的中位数,作为细胞分群情况的标签坐标...tSNE三维坐标数据,以及细胞分群情况celltype 选择合适的配图颜色 使用scatterplot3d绘制三维图 使用legend加上标签信息 #加载R包 library(dplyr) library

    37810
    领券