首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

数据处理:EditPlus正则表达式处理文本数据

科学研究离不开数据处理,今天“编辑之谭”公众号给大家演示:如何利用EditPlus正则表达式以及Excel分列功能,对从淘宝网上抓取的论文“代写”交易数据txt文件进行整理,揭示论文代笔代写学术不端乱象。去看看!

这几天白天陪家人欢度春节,晚上回来修改在《中国科技期刊研究》(CSSCI)上投稿的稿件“社交群消息与电商论文代写交易数据的挖掘及学术不端诱因的分析”(修改后再审)。其中一位专家提出了文中利用“大数据”挖掘,但是只抓取了一个QQ群的历史消息,不能称之为“大数据”,也就是数据量不大,分析不具有代表性,建议补充大数据。于是,我准备从淘宝网搜索了“代写”关键词检索并挖掘论文代笔代写类服务产品的交易情况(咸鱼APP上也有类似的交易信息)。

最初打算尝试Python编写Spider爬虫程序,抓取淘宝网上发布的论文代写服务产品的价格、交易量以及用户评价。但由于淘宝网的反爬虫策略比较严密,一时半会难以突破其反爬虫壁垒,于是放弃编写爬虫,采用手动抓取网页信息(100页搜索结果,手动抓取了1小时),得到如图1所示的TXT数据文件。

图1 从淘宝网上抓取的“代写”产品信息

全选图1中TXT文件的文本内容,复制,在Excel软件中粘贴,发现数据错乱(图2),需要对TXT文件的内容进行整理。

图2 从TXT数据文件拷贝到Excel中发生的数据错乱

于是,采用EditPlus对TXT数据文件进行整理。首先查找“ ”(空格)替换为“,”,如图3所示。

图3 替换空格为逗号

然后,清除重复文本,如图4所示,蓝色部分是重复信息。方法是采用EditPlus软件的“替换”对话框中的正则表达式(勾选),查找“\n,.*\n”替换为“,”。这里“\n”是换行符;“,”是重复文字的行首都有一个逗号;".*”表示通配所有内容;后面再跟“\n”换行符”。利用“\n,.*\n”可以将重复部分以及其上、下一换行符一起替换为“,”,如图4所示,红色框中的内容是替换一次的效果。

图4 正则表达式查找替换重复文字

再次,采用同样的方法,查找“\n”换行符替换为“,”,如图5所示。

图5 查找替换换行符为逗号

于是,文本内容为一行数据(无换行符),这里挖掘的数据文本中,有一个共同特征“人付款,”,它将每一条代写产品信息区分开来。因此,将“人付款,”改为“人付款|”,如图6所示。

图6 替换特征符号

有什么用?“|”可以利用Excel的“分列”功能将“|”分列出来。如图7所示。

图7 Excel分列操作

分列后的数据占一行的不同表格单元,这并不是我想要的数据结构。全选第一行数据,然后点击菜单“开始→粘贴→置转”,可将横向数据转变为纵向数据,如图 8所示。

图8 置转数据操作步骤

置转后,选中第一列数据,然后点击“数据→分列”菜单,勾选“分割符号”,这里选择¥符号,可将主题与价格及付款人数分列出来。如图9所示。

图9 数据的分列

最后,整理出所需要的数据表,共抓取了4408个“代写”服务的产品信息。如图10所示。

后记:求助“代写”论文是一种学术不端行为。但目前电商平台上仍然充斥着各种“代写”“代笔”类服务产品,并且少数“代笔”产品的月销量达到了6000笔以上。近年来国家加大了对抄袭、剽窃、买卖论文的学术不端乱象的惩治力度,将与身份证诚信记录关联。因此,不能抱有侥幸心理,我们不能触碰这条学术道德的底线。主动联系期刊编辑有利于论文创作与发表。

欢迎广大网友向“编辑之谭”提问出图!

欢迎广大网友向“编辑之谭”投稿!

欢迎转载“编辑之谭”文章!

新年快乐!

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190208G05TYT00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券