考勤数据统计

```import pandas as pd
`myKq[u'打卡日期'].values`
```array([u'2017-12-29 17:33:26', u'2017-12-29 17:31:54',
u'2017-12-29 17:28:55', ..., u'2017-01-03 17:05:55',
u'2017-01-03 12:32:11', u'2017-01-03 10:24:25'], dtype=object)```
```import numpy as np
daytime = myKq[u'打卡日期'].map(lambda x:x.split(' ')) #分别处理新旧两列
day, time = [],[]
for d in daytime:
day.append(d[0])
time.append(d[1])
myKq['day'] = day
myKq['time'] = time```
`myKq.tail()`
```import matplotlib.pyplot as plt
from datetime import datetime
from matplotlib.font_manager import FontProperties
font = FontProperties(fname=r"C:\\WINDOWS\\Fonts\\simsun.ttc", size=14)

def getMin(arrtime):
a = (arrtime).split(":")
return (float(a[0])-9)*60+float(a[1])
plt.figure()
def getMax(arrtime):
a = (arrtime).split(":")
return (float(a[0])-18)*60+float(a[1])

df = myKq["time"].groupby(myKq['day'])

night = df.max().map(lambda x:getMax(x))
morning = df.min().map(lambda x:getMin(x))
colors = np.array(['g']*morning.size)
dic_c_l = {'g':'work day', 'r':'friday', 'b':'weekend'}
for index, day in enumerate(morning.index):
week = datetime.strptime(day, '%Y-%m-%d').weekday()
if (week+1 == 5):
colors[index] = 'r'
elif (week+1==6 or week+1==7):
colors[index] = 'b'
fig = plt.figure(figsize=(14,5))

plt.xlabel(u'上班(day)',fontproperties=font)
plt.ylabel(u'加班时间',fontproperties=font)

for index, value in enumerate(dic_c_l.keys()):
temp = np.where(colors==value)
ax1.scatter(temp, night.values[temp], c=value,marker= 'o', label= dic_c_l[value])
ax1.legend(loc='upper left')

ax2.hist(night, bins = 40, normed= 0)

plt.xlabel(u'加班分钟数',fontproperties=font)
plt.ylabel(u'次数',fontproperties=font)

plt.show()```
```fig = plt.figure(figsize=(14,5))

colors = np.array(['g']*morning.size)
dic_c_l = {'g':'work day', 'r':'monday', 'b':'weekend'}
for index, day in enumerate(morning.index):
week = datetime.strptime(day, '%Y-%m-%d').weekday()
if (week+1 == 1):
colors[index] = 'r'
elif (week+1==6 or week+1==7):
colors[index] = 'b'

plt.xlabel(u'上班(day)',fontproperties=font)
plt.ylabel(u'迟到时间',fontproperties=font)

for index, value in enumerate(dic_c_l.keys()):
temp = np.where(colors==value)
ax1.scatter(temp, morning.values[temp], c=value,marker= 'o', label= dic_c_l[value])
ax1.legend(loc='upper left')

ax2.hist(morning.values, bins = 80, normed= 0)

plt.xlabel(u'迟到分钟数',fontproperties=font)
plt.ylabel(u'次数',fontproperties=font)
plt.show()```

0 条评论

相关文章

关于TF(词频) 和TF-IDF(词频-逆向文件频率 )的理解

TF（词频）:  假定存在一份有N个词的文件A，其中‘明星‘这个词出现的次数为T。那么 TF = T/N; 所以表示为： 某一个词在某一个文件中出现的频率. T...

31960

14040

如何提高SDN可拓展性

Software Defined Networking是一种控制平面和数据平面分离的可编程的网络架构，目前已经有许多商业落地案例。在部署SDN时，往往会因SDN...

34170

操作系统核心原理-6.外存管理（上）磁盘基础

计算机是处理数据的机器，而数据就需要有地方存放。在计算机中，可供数据存放的地方并不太多，除了内存之外，最主要的存储数据的媒介就是磁盘。对于大多数计算机领域的...

16910

3.3K90

49180

39820

手游测试大杀器DS-5 StreamLine快速入门

Streamline是一款由ARM公司制作的终极性能测试利器，可以快速定位手游性能问题，甚至可以直接追溯代码。但Streamline需要自行搭建，确实让不少同行...

15220

14940

14620