首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

文本分类语料获取——搜狗语料

这次主要总结搜过语料获取,因为老师要求20万数据,而我自己只爬了2万多,所以用到了搜狗语料....在这个页面,我选择一个数据,别小看一个月,我从里面只用了24万,这24万可能在这一个月里都不算什么........做个实验还是很够用。 下载下来是这个样子.........我们不可能一个txt一个txt手工加吧(有128个txt),还是需要遍历一下用程序加。...Python用提供了一个解析xml很好用minidom.parse函数,这个函数用法比较简单,可以通过root.getElementsByTagName()来获取xml需要部分(可以查下这个函数用法...,比较好理解),这里我获取是url和content,获取url目的是为了获取域名,这样就可以根据域名来判断这篇文章属于什么类别里啦~对了,忘 了说一点,这样做运行时会出现bug,问题是因为有的url

2.8K80
您找到你想要的搜索结果了吗?
是的
没有找到

字符一个不重复字符

题目描述 请实现一个函数用来找出字符一个只出现一次字符。例如,当从字符只读出前两个字符”go”时,第一个只出现一次字符是”g”。...当从该字符读出前六个字符“google”时,第一个只出现一次字符是”l”。 解题思路 用一个哈希表来存储每个字符及其出现次数,另外用一个字符串 s 来保存字符字符顺序。...每次插入时候,在字符串 s 插入该字符,然后在哈希表查看是否存在该字符,如果存在则它 value 加1,如果不存在,它在哈希表插入该字符,它 value 为 1。...查找第一个只出现一次字符时,按照 s 顺序,依次查找 map 字符出现次数,当 value 为 1 时,该字符就是第一个只出现一次字符。

74420

字符一个不重复字符

题目描述 请实现一个函数用来找出字符一个只出现一次字符。例如,当从字符只读出前两个字符 “go” 时,第一个只出现一次字符是 “g”。...当从该字符读出前六个字符“google" 时,第一个只出现一次字符是 “l”。...解题思路 使用统计数组来统计每个字符出现次数,本题涉及到字符为都为 ASCII 码,因此使用一个大小为 128 整型数组就能完成次数统计任务。...使用队列来存储到达字符,并在每次有新字符从字符流到达时移除队列头部那些出现次数不再是一次元素。因为队列是先进先出顺序,因此队列头部元素为第一次只出现一次字符。...System.out.println("queue = " + firstAppearChar.getQueue() ); System.out.println("字符一个不重复字符

48210

如何在H264码SPS获取宽和高信息?

没错,它们就是序列参数集(SPS)和图像参数集(PPS),而且通常情况下,PPS会依赖SPS部分参数信息,同时,视频码宽高信息也存储在SPS。...那么如何从中获取视频宽高信息呢,就是今天本文主要内容。 正文 一、SPS结构 对H264码流进行解码时,肯定会用到SPS相关参数,因此,我们非常有必要了解其中参数含义。...SPS,第一个字节表示profile_idc,根据profile_idc值可以确定码符合哪一种档次。...当前码,level_idc = 0x1e = 30,因此码级别为3。 (3) seq_parameter_set_id 表示当前序列参数集id。...二、SPS存储位置 在H264码,都是以"0x00 0x00 0x01"或者"0x00 0x00 0x00 0x01"作为起始码,找到起始码之后,使用开始码之后一个字节低5位判断是否为7,

2.7K10

字符一个不重复字符_54

题目描述 请实现一个函数用来找出字符一个只出现一次字符。例如,当从字符只读出前两个字符"go"时,第一个只出现一次字符是"g"。...当从该字符读出前六个字符“google"时,第一个只出现一次字符是"l"。...后台会用以下方式调用Insert 和 FirstAppearingOnce 函数 返回值描述: 如果当前字符没有存在出现一次字符,返回#字符 思路1: map计算数量,链表保存各字符以及其绝对位置...; //存放每个字符以及其数量 Map countRes=new HashMap(); //由于hashmap是无需因此这里存放一个原始字符串...,存放字符串每个字符,其索引及其位置 List listStr=new LinkedList(); public void Insert(char ch)

35730

ExcelVBA汇总文件夹所有文件指定工作表到一个文件并进行求和

ExcelVBA汇总文件夹所有文件指定工作表到一个文件并进行求和 【问题】:有一个格式固定表格,我们下发给下面的单位做,上交上来有很多个文件,想要做是汇总下面各学校交上来表格并求和 1.许多个文件...=== Sub 汇总指定文件指定工作表() WithApplication.FileDialog(msoFileDialogFolderPicker) '--------取得用户选择文件夹路径....Close False EndWith End If mfile = Dir Loop End Sub 运行,可以得到所有的文件指定工作表汇总到一个文件...,并一个一个表放置好了, ====第二步有公式sum(‘*’!...B6)把所有工作表是B6单元格求和= 在b6输入= sum(‘*’!B6),Enter, 把所有工作表是B6单元格求和,再右拉,再下拉,就可以啦

2K20

aardiowhttp调用post()后如何获取headercookie值

目前whttp调用get和post后无法通过readHeader()函数读取返回header。...因为一鹤认为一个请求完毕以后就不应该再去获取header了, 想要获取header必须在请求完毕之前完成。...但是就我个人而言,因为比较懒,不想自己多些几行代码去先send再read,一步步去完成一个http请求。有简单方法不用,那不是傻吗。所以只能手动改一下whttp。...因为readHeader函数必须在请求完成之前调用才能获取到header,而一鹤写库里面,只有请求method=”head”时才调用这个函数, 其他如post、get方法都不会调用。...控制这个逻辑代码在whttpdown函数里面,大概573行: if( method == “HEAD” || noReceiveData ){ this.readHeader(); this.endRequest

26640

深度对比Python4大文件文件夹处理,你更pick哪一个

以下文章来源于数据分析与统计学之美,作者黄伟呢 一、开篇 os应该是使用频率最高一个文件处理,但是不得不说Python还有几个其它文件处理,像shutil、glob、pathlib...1. os 对于os模块来说,这是大家最熟悉一个,功能相对很齐全,主要像以下这些功能: os.getcwd():获取当前工作路径; os.chdir() :改变当前工作目录到指定路径; os.listdir...(path):传入任意一个path路径,返回是该路径下所有文件和目录组成列表; os.mkdir():创建文件夹; 2. shutil shutil,最主要功能就是提供了对文件/文件夹复制、...但是shutil模块rmtree()可以递归彻底删除非空文件夹; 3. glob glob,提供了更加便捷用来查找符合特定规则目录和文件方法,主要它支持*、**、?...:匹配一个字符; []:匹配指定范围内字符,如[0-9]匹配数字,[a-z]匹配小写字母; 4. pathlib pathlib中有一些功能超级棒,其中我最喜欢下面这个功能: p.name:获取文件名

1.2K160

利用 C# FileSystemWatcher 制作一个文件夹监控小工具

利用 C# FileSystemWatcher 制作一个文件夹监控小工具 独立观察员 2020 年 12 月 26 日 前一段看到微信公众号 “码农读书” 上发了一篇文章《如何使用 C# FileSystemWatcher...,本人受此启发,决定制作一个文件夹内变动监控小工具,当作练手和自用。...功能比较简单,运行程序后,点击 “选择文件夹” 按钮选择想要监控文件夹,然后点击 “开始监控文件变动” 即可。可以检测 文件夹 / 文件 创建、删除、修改、重命名,然后在信息窗输出相关信息。...如果取消勾选 “是否显示完全路径”,则输出信息中将不包含选择文件夹路径” 部分,也就是显示是相对路径。如果取消勾选 “是否监控子文件夹”,则程序将不监控子文件夹变动情况。.../// /// 获取路径类型(判断是文件还是文件夹) /// /// 路径 /// <returns

80410

SharePoint下用C#代码上传文档至文档文件夹

SharePoint文档非常方便,可以管理日常文档,更强大是可以创建文件夹来分类,通常在UI界面上是非常简单了,点击文件夹,Create a Folder即可。...但是,怎样手动去创建文件夹呢,怎样在文件夹创建子文件夹。...项目分析 举个栗子,我需要上传文档到文档,希望把该文件上传到以年、月、日、上传人命名文件夹,如:2013年-->5月-->11日-->陈小春,如下图所示这样 ?...点击2013年,进入当前月子文件夹 ? 点击当前月,进入以上传人命名文件夹 ? 点击上传人(陈小春),即可看到我们上传文档 ?...之后创建Byte数组,将上传文档附加到SubFolder

1.9K80
领券