文章/答案/技术大牛

发布

社区首页 >问答首页 >在Python中拆分和提取后会丢失字符串行

问在Python中拆分和提取后会丢失字符串行
EN

Stack Overflow用户

提问于 2019-05-13 14:24:26

回答 2查看 60关注 0票数 0

对于如下的dict格式：

data = {'log_id': 8972641530831729293, 'words_result_num': 20, 'words_result': [{'words': '05B01企商联登记注册代理事务所(通合伙)'}, {'words': 'Unit-D 608华夏启商(企业管理有限公司)'}, {'words': '中睿智诚商业管理有限公司'}, {'words': '17/F(1706)美泰德商务咨询有限公司'}, {'words': 'A2006~A2007新曙光会计服务有限公司'}, {'words': '2906-10建筑与室内设计师网'}, {'words': '中建瑞达'}]}

我想从words中提取字符串左侧的数字、字母或标点符号作为office_name列，其余的作为company_name列。

一般来说，我可以得到我想要的东西，但是当words没有数字、字母或标点符号时，在拆分和提取之后，这些行将丢失并变成NaNs。

df = DataFrame(data)

cols_to_drop = ['log_id', 'words_result_num']
df = df[df.columns.drop(cols_to_drop)]

df['words_result'] = df['words_result'].astype(str)
df['words_result'] = df['words_result'].map(lambda x: x.lstrip("{").rstrip("}"))
df['company_info'] = df['words_result'].str.split(': ').str[1]
df['company_info'] = df['company_info'].map(lambda x: x.lstrip("' ").rstrip("'"))

pat = r'([\x00-\x7F]+)([\u4e00-\u9fff]+.*$)'
#pat = r'(^(\d+))(\s+([^\u4e00-\u9fff]+).*$)'
df[['office_name','company_name']] = df.pop('company_info').str.extract(pat)
del df['words_result']

print(df)

输出：

   office_name       company_name
0        05B01  企商联登记注册代理事务所(通合伙)
1   Unit-D 608     华夏启商(企业管理有限公司)
2          NaN                NaN
3   17/F(1706)        美泰德商务咨询有限公司
4  A2006~A2007        新曙光会计服务有限公司
5      2906-10          建筑与室内设计师网
6          NaN                NaN

如何才能得到以下预期结果？非常感谢你的帮助。

     office_name          company_name
0        05B01      企商联登记注册代理事务所(通合伙)
1   Unit-D 608      华夏启商(企业管理有限公司)
2          NaN      中睿智诚商业管理有限公司
3   17/F(1706)      美泰德商务咨询有限公司
4  A2006~A2007      新曙光会计服务有限公司
5      2906-10      建筑与室内设计师网
6          NaN      中建瑞达

python

regex

string

pandas

dictionary

回答 2

Stack Overflow用户

回答已采纳

发布于 2019-05-13 16:32:01

想法是用fillna的原始值替换缺少的值

cols_to_drop = ['log_id', 'words_result_num']
df = df[df.columns.drop(cols_to_drop)]

s = df.pop('words_result').apply(lambda x: x['words'])
pat = r'([\x00-\x7F]+)([\u4e00-\u9fff]+.*$)'
#pat = r'(^(\d+))(\s+([^\u4e00-\u9fff]+).*$)'
df[['office_name','company_name']] = s.str.extract(pat)

df['company_name'] = df['company_name'] .fillna(s)
print(df)
   office_name       company_name
0        05B01  企商联登记注册代理事务所(通合伙)
1   Unit-D 608     华夏启商(企业管理有限公司)
2          NaN       中睿智诚商业管理有限公司
3   17/F(1706)        美泰德商务咨询有限公司
4  A2006~A2007        新曙光会计服务有限公司
5      2906-10          建筑与室内设计师网
6          NaN               中建瑞达

您的解决方案应该更改：

cols_to_drop = ['log_id', 'words_result_num']
df = df[df.columns.drop(cols_to_drop)]

df['words_result'] = df['words_result'].astype(str)
df['words_result'] = df['words_result'].map(lambda x: x.lstrip("{").rstrip("}"))
s = df['words_result'].str.split(': ').str[1]
s = s.map(lambda x: x.lstrip("' ").rstrip("'"))
#s = df['company_info']
pat = r'([\x00-\x7F]+)([\u4e00-\u9fff]+.*$)'
#pat = r'(^(\d+))(\s+([^\u4e00-\u9fff]+).*$)'
df[['office_name','company_name']] = s.str.extract(pat)
del df['words_result']

df['company_name'] = df['company_name'] .fillna(s)
print(df)
   office_name       company_name
0        05B01  企商联登记注册代理事务所(通合伙)
1   Unit-D 608     华夏启商(企业管理有限公司)
2          NaN       中睿智诚商业管理有限公司
3   17/F(1706)        美泰德商务咨询有限公司
4  A2006~A2007        新曙光会计服务有限公司
5      2906-10          建筑与室内设计师网
6          NaN               中建瑞达

票数 1

Stack Overflow用户

发布于 2019-05-13 16:37:34

您应该添加?来支持包含可选组的模式。

df = pd.DataFrame(data)
df = df.apply(lambda x:x.words_result['words'],axis=1).to_frame(name='words_result')

# df = df.pop('words_result').str.extract(r'(?P<office_name>[\x00-\x7F]+)?(?P<company_name>[\u4e00-\u9fff]+.*$)')
df[['office_name','company_name']] = df.pop('words_result').str.extract(r'([\x00-\x7F]+)?([\u4e00-\u9fff]+.*$)')
print(df)

   office_name       company_name
0        05B01  企商联登记注册代理事务所(通合伙)
1   Unit-D 608     华夏启商(企业管理有限公司)
2          NaN       中睿智诚商业管理有限公司
3   17/F(1706)        美泰德商务咨询有限公司
4  A2006~A2007        新曙光会计服务有限公司
5      2906-10          建筑与室内设计师网
6          NaN               中建瑞达

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/56106753

复制

相似问题

问在Python中拆分和提取后会丢失字符串行
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在Python中拆分和提取后会丢失字符串行EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在Python中拆分和提取后会丢失字符串行
EN