前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >个人主页信息提取器

个人主页信息提取器

作者头像
里克贝斯
发布2021-05-21 10:32:21
9060
发布2021-05-21 10:32:21
举报
文章被收录于专栏:图灵技术域图灵技术域

简介

从研究人员的主页(HTML)中提取信息,并将信息自动分为三类(您可以添加更多的类)。支持中英文页面。

可以分成的类别:

  • publication
  • education
  • honor

详细

从互联网文本数据中提取并分类学术行为的流程如下图所示,整个过程是线性的。在正式提取学术行为之前,首先人工标注互联网中少量的学术行为,生成训练集后,采用fastText进行训练生成模型并保存。

接下来通过Python爬虫获取HTML元数据,将HTML数据传入网页正文提取算法WNBTE中获得正文文本,其中正文提取算法通过统计HTML不同标签中文本字数的比值来判断正文所在的位置,能够有效去除冗余无关的HTML标签。随后对正文文本段落进行短语级切分,分词后传入fastText神经网络,利用已经训练好的数据模型对短语进行分类,打上标签。

项目结构

  • ff_classifier: 使用fasttext自动训练和预测学术行为(训练时间小于1s)
  • text_toolkit.py: 提取具有一定模式的字符串,如邮箱,手机号,时间等
  • profile_class.py: 研究人员的类
  • html_extract.py: 提取HTML元素
  • demo.py: demo

结果预览(部分)

代码语言:javascript
复制
honor 0.7774751782417297 2013 Aug. 2013,     KSEM'13 Best Paper Award
----
honor 0.7579861879348755 2013 Aug. 2013,     CCML'13 Outstanding Student Paper Award
----
honor 0.5015735626220703 2012 Mar.2012,     Google Technology Student Expert Award
----
publication 0.7918424606323242  Hongyuan Zhu, Qi Liu*, Nicholas Jing Yuan*, Kun Zhang, Enhong Chen. Pop Music Generation: from Melody to Multi-style Arrangement. ACM Transactions on Knowledge Discovery from Data (ACM TKDD). (Accepted) [Data]
----
education 0.5010859370231628 2011 Teaching Assistant, Data Mining (Prof. Hui Xiong). Rutgers Business School, Rutgers University, Feb. 2011~May. 2011.
----
education 0.3986995816230774 2010 Development Engineer, Personalized Recommendation Team. Alibaba (China) Technology Co., Ltd.  Mar.2010~Aug.2010.
----

PS

如果您想提高提取器的效率或准确性,您可以在ff_classifier/train_data.txt中添加更多的训练数据,或调整ff_classifier/ classifiere .py中的第20行训练配置。

Python

代码语言:javascript
复制
# Line 20
self.classifier = ff.train_supervised("ff_classifier/train_data.txt", epoch=100, dim=50, lr=0.1, wordNgrams=2, minCount=0, loss="softmax")

代码地址:https://github.com/xyjigsaw/fastProfileExtractor

相关文章

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2020-06-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 简介
  • 详细
  • 项目结构
  • 结果预览(部分)
    • 相关文章
    领券
    问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档