零基础学编程039:生成群文章目录(2)

每个月的月底,“分享与成长群”要汇总所有成员的原创文章,这次我改用了水滴微信平台把数据采集到一个电子表格文件中。在《零基础学编程019:生成群文章目录》这一节里,我已经可以用读csv文本文件的办法,配合markdown语法自动生成所有文章的目录。

但这次情况发生了几点变化:

  • 直接读取xlsx的电子表格会更方便
  • 有些人想用笔名来署名,不显示真实姓名
  • 有些文章暂时不方便对外公开,不显示超链接
  • 有些人会多次提交,以最后一次的文章为准。比如下图中的第120、127行是同一人的,只保留第127行

这次程序想直接读取电子表格,省掉转换csv这一步,查了一下相关资料,python中读xls或xlsx的模块库非常多,主要可选的是xlrd和pyexcel等,最后我选定了pandas,因为pandas也是依赖xlrd来读取电子表格,并且将来还可以做更为强大的数据分析,学pandas绝对用得上。

读电子表格很方便,用read_excel()函数。

import pandas as pd

df = pd.read_excel("d:/分享与成长群/201703.xlsx")

xlsx原始文件中文章是按提交日期反序排列的,我想让先提交的文章排在前面,因此需要将数据集按“序号”从小到大排序。

df = df.sort("序号")

删除重复数据,我使用了谷歌,找到了drop_duplicates()函数,一行代码搞定。意思是:如果“姓名”这一列相同,表示是重复记录,keep='last'表示只保留最后出现一条记录。

df = df.drop_duplicates('姓名', keep='last')

这个pandas采用了与R语言类似的DataFrame设计,功能非常强大,可以根据设定的条件快速地选出所需的行和列。因为我已经学过R语言,看了一下pandas的快速入门,就找到了这条语句:

df = df.loc[:, ["姓名", "文章标题", "文章超链接", "是否公开文章的链接?", "笔名"]]

原表格中还包括openid、填写时间、IP地址、备注等列,对于我的文章汇总没有用处,而真正有用的就是"姓名"、"文章标题"、"文章超链接"、"是否公开文章的链接?"、"笔名"这五列。

再下来就是逐行循环处理了,pandas应该有更理想的处理办法,但我现在还没学到。

str = ""
for line in df.values :
    name = line[0] 
    title = line[1]  
    url = line[2]  
    public = line[3]
    penName = line[4]

    if(pd.notnull(penName)) :
        name = penName

    str += "1. " + name + ": "
    if(public == '不公开') :
        str += title + "\n";
    else :
        str += "[" + title + "](" + url + ")\n" 

生成的文本是Markdown格式(点这里了解Markdown),还可以更懒一些,把生成的文本直接复制到剪贴板中,从stackoverflow上抄来代码:

from tkinter import Tk
r = Tk()
r.withdraw()
r.clipboard_clear()
r.clipboard_append(str)
r.destroy()

现在只需要到简书上粘贴,并发布就OK了。

小结:

  • 软件需求永远在变,程序也要不断迭代
  • pandas的read_excel()可直接读取xls和xlsx的电子表格
  • DataFrame很强大,可以选行或选列,用.loc[ ]
  • sort()排序
  • drop_duplicates()去掉重复的行

--- END ---

原文发布于微信公众号 - 申龙斌的程序人生(slbGTD)

原文发表时间:2017-03-31

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏数据结构与算法

网络最大流算法—最高标号预流推进HLPP

吐槽 这个算法。。 怎么说........ 学来也就是装装13吧。。。。 长得比EK丑 跑的比EK慢 写着比EK难 思想 大家先来猜一下这个算法的思想吧:joy...

2906
来自专栏北京马哥教育

一文总结学习 Python 的 14 张思维导图

? 本文主要涵盖了 Python 编程的核心知识(暂不包括标准库及第三方库,后续会发布相应专题的文章)。 首先,按顺序依次展示了以下内容的一系列思维导图:基础...

3927
来自专栏编程

C语言嵌入式系统编程修炼之键盘操作

这是我13年前创作和发表在互联网上的文章,这么多年过去了,这篇文章仍然在到处传播。现在贴回Linuxer公众号。 全文目录: C语言嵌入式系统编程修炼之道——背...

1789
来自专栏Crossin的编程教室

【Python 第41课】 用文件保存游戏(3)

你的小游戏现在已经可以保存成绩了,但只有一组成绩,不管谁来玩,都会算在里面。所以今天我还要加上一个更多的功能:存储多组成绩。玩家需要做的就是,在游戏开始前,输入...

2324
来自专栏数据结构与算法

P2746 [USACO5.3]校园网Network of Schools

题目描述 一些学校连入一个电脑网络。那些学校已订立了协议:每个学校都会给其它的一些学校分发软件(称作“接受学校”)。注意即使 B 在 A 学校的分发列表中, A...

2666
来自专栏AI科技大本营的专栏

一文总结学习Python的14张思维导图

本文主要涵盖了 Python 编程的核心知识(暂不包括标准库及第三方库,后续会发布相应专题的文章)。 首先,按顺序依次展示了以下内容的一系列思维导图:基础知识,...

31510
来自专栏数说工作室

【SAS Says】基础篇:SAS软件入门(上)

前言·数说君的话 在统计软件里,SAS算是一哥了,虽然R免费开源有各种统计函数、python功能多各方面比较平衡,但是、但是——SAS贵啊!正版的SAS一年要...

3327
来自专栏企鹅号快讯

编程语言中间令人无语的规则

我们都知道,软件开发人员每天都在做各种各样的决策:如何更好地实现功能、如何修复bug、如何改进应用程序性能等等。但是他们也在其他人的工作成果中继续自己的决定,例...

3345
来自专栏Java学习网

重新敲一遍代码,胜过拷贝粘贴

重新敲一遍代码,胜过拷贝粘贴  如今这个时代,Google 和 Stack Overflow 已经成为了很多开发者不可或缺的工具。但是最近,后者貌似名声坏了。一...

2349
来自专栏Java学习网

最佳编码实践:搞砸代码的10种方法

 这是一篇提供有效、实用编程方法的程序箴言,作者Susan Harkins是世界最大的技术期刊出版社的主编,具有多年的实践经验;在这篇文章里她重申“最佳编码实践...

2434

扫描关注云+社区