零基础学编程039:生成群文章目录(2)

每个月的月底,“分享与成长群”要汇总所有成员的原创文章,这次我改用了水滴微信平台把数据采集到一个电子表格文件中。在《零基础学编程019:生成群文章目录》这一节里,我已经可以用读csv文本文件的办法,配合markdown语法自动生成所有文章的目录。

但这次情况发生了几点变化:

  • 直接读取xlsx的电子表格会更方便
  • 有些人想用笔名来署名,不显示真实姓名
  • 有些文章暂时不方便对外公开,不显示超链接
  • 有些人会多次提交,以最后一次的文章为准。比如下图中的第120、127行是同一人的,只保留第127行

这次程序想直接读取电子表格,省掉转换csv这一步,查了一下相关资料,python中读xls或xlsx的模块库非常多,主要可选的是xlrd和pyexcel等,最后我选定了pandas,因为pandas也是依赖xlrd来读取电子表格,并且将来还可以做更为强大的数据分析,学pandas绝对用得上。

读电子表格很方便,用read_excel()函数。

import pandas as pd

df = pd.read_excel("d:/分享与成长群/201703.xlsx")

xlsx原始文件中文章是按提交日期反序排列的,我想让先提交的文章排在前面,因此需要将数据集按“序号”从小到大排序。

df = df.sort("序号")

删除重复数据,我使用了谷歌,找到了drop_duplicates()函数,一行代码搞定。意思是:如果“姓名”这一列相同,表示是重复记录,keep='last'表示只保留最后出现一条记录。

df = df.drop_duplicates('姓名', keep='last')

这个pandas采用了与R语言类似的DataFrame设计,功能非常强大,可以根据设定的条件快速地选出所需的行和列。因为我已经学过R语言,看了一下pandas的快速入门,就找到了这条语句:

df = df.loc[:, ["姓名", "文章标题", "文章超链接", "是否公开文章的链接?", "笔名"]]

原表格中还包括openid、填写时间、IP地址、备注等列,对于我的文章汇总没有用处,而真正有用的就是"姓名"、"文章标题"、"文章超链接"、"是否公开文章的链接?"、"笔名"这五列。

再下来就是逐行循环处理了,pandas应该有更理想的处理办法,但我现在还没学到。

str = ""
for line in df.values :
    name = line[0] 
    title = line[1]  
    url = line[2]  
    public = line[3]
    penName = line[4]

    if(pd.notnull(penName)) :
        name = penName

    str += "1. " + name + ": "
    if(public == '不公开') :
        str += title + "\n";
    else :
        str += "[" + title + "](" + url + ")\n" 

生成的文本是Markdown格式(点这里了解Markdown),还可以更懒一些,把生成的文本直接复制到剪贴板中,从stackoverflow上抄来代码:

from tkinter import Tk
r = Tk()
r.withdraw()
r.clipboard_clear()
r.clipboard_append(str)
r.destroy()

现在只需要到简书上粘贴,并发布就OK了。

小结:

  • 软件需求永远在变,程序也要不断迭代
  • pandas的read_excel()可直接读取xls和xlsx的电子表格
  • DataFrame很强大,可以选行或选列,用.loc[ ]
  • sort()排序
  • drop_duplicates()去掉重复的行

--- END ---

原文发布于微信公众号 - 申龙斌的程序人生(slbGTD)

原文发表时间:2017-03-31

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏小樱的经验随笔

CTF---Web入门第十二题 程序逻辑问题

程序逻辑问题分值:20 来源: 实验吧 难度:中 参与人数:6909人 Get Flag:1993人 答题人数:2070人 解题通过率:96% 绕过 解题链接:...

3366
来自专栏电光石火

PHP中HTTP防盗链技术

 盗链是指服务提供商自己不提供服务的内容,通过技术手段绕过其它有利益的最终用户界面(如广告),直接在自己的网站上向最终用户提供其它服务提供商的服务内容,骗取最终...

1988
来自专栏IT米粉

数据库的使用你可能忽略了这些

数据库的管理是一个非常专业的事情,对数据库的调优、监控一般是由数据库工程师完成,但是开发人员也经常与数据库打交道,即使是简单的增删改查也是有很多窍门,这里,一起...

2885
来自专栏Spark学习技巧

Flink流式处理概念简介

一,抽象层次 Flink提供不同级别的抽象来开发流/批处理应用程序。 ? 1,stateful streaming 最底层。它通过Process Functio...

4386
来自专栏大数据

批处理实现最简化数据自动备份

最近一直在考虑oracle数据自动备份到本地的问题,也找机会当面向大牛请教过,得到了一堆关于DG、GG、RAC、DBLINK、ARCHLOG等方面的建议,还有个...

2017
来自专栏杨建荣的学习笔记

初探Redis

大概在2010年的时候,有一次和一个同事聊天,那个时候知道了Redis,对于技术的追随至今,还没有下载一个Redis版本玩玩, 只有1万多行代码,以性...

4319
来自专栏Python中文社区

使用Python分析nginx日志

使用Python分析nginx日志 专栏作者:熊球 ♚土木工程毕业,现从事web后端开发方面的工作,擅长python,flask框架等。 博客:codechat...

26310
来自专栏逍遥剑客的游戏开发

GameEngineArchitecture读书笔记(二)

1555
来自专栏安恒信息

紧急公告:Android系统webview控件接口存安全隐患

日前,谷歌旗下Android系统爆出webview控件存在接口安全隐患,会令绝大部分使用Andorid系统为核心的设备沦为黑客的“玩物”。目前,包括...

5045
来自专栏吉浦迅科技

DAY70:阅读API Reference

我们正带领大家开始阅读英文的《CUDA C Programming Guide》,今天是第70天,我们正在讲解CUDA 动态并行,希望在接下来的30天里,您可以...

1734

扫码关注云+社区