语料来源:携程出行攻略
时间范围:2018年7月14日之前
采集方式:使用scrapy编写爬虫脚本进行抓取
采集规模:共采集505767篇,量级50W
采集脚本目录:news_spider/travelspider
语料举例:
107330 一路向南——第二篇相逢南通(自驾游) - 游记攻略【携程攻略】
107331 彩云之南—云上的蜜月之旅 - 丽江游记攻略【携程攻略】
107332 甘肃游记之玛曲郎木寺 - 碌曲游记攻略【携程攻略】
107333 拍客白沙行 - 舟山游记攻略【携程攻略】
107334 九华山-沐浴在佛恩下的XXX - 九华山游记攻略【携程攻略】
107335 垦丁夏季活动 - 垦丁游记攻略【携程攻略】
107336 行走在中国台湾(向隅版)---世外桃源之我们的家(九份民宿) - 九份游记攻略【携程攻略】
107337 卫赛节马来西亚行 - 马六甲州游记攻略【携程攻略】
107338 蓝天下的嘉峪关 - 嘉峪关游记攻略【携程攻略】
107339 人生一定要登一次雪山---都日峰 - 四川游记攻略【携程攻略】
107340 八月,青海湖不远 - 海北游记攻略【携程攻略】
107341 #冬季北京# 帝都极冷天去首富的酒店避避寒 - 北京游记攻略【携程攻略】
107342 圣地西藏 - 青海湖游记攻略【携程攻略】
107343 孩子,妈妈想让你见识更多的繁华世界 - 深圳游记攻略【携程攻略】
107344 顶级奢华,舍我其谁! - 澳门游记攻略【携程攻略】
107345 旅行、不需要走远!美景就在身边 - 江门游记攻略【携程攻略】
107346 安安静静,不言不语都是好风景 - 厦门游记攻略【携程攻略】
107347 邂逅则天故里 行走美丽利州 体验师带你看中国女儿节 - 广元游记攻略【携程攻略】
107348 中国台湾,可以这样玩--15日环岛自由行全记录 - 台北游记攻略【携程攻略】
107349 让我记忆深刻的厦门--详细版 - 厦门游记攻略【携程攻略】
107350 上海地鐵站 - 上海游记攻略【携程攻略】
107351 逃离雾霾,带着“马拉多纳”去腾冲 - 腾冲游记攻略【携程攻略】
107352 在我心上用力地开一 - 四川游记攻略【携程攻略】
107353 冬季到鄱阳湖边的余干县看鸟,多张美图记录环湖游全过程 - 余干游记攻略【携程攻略】
107354 2014.十一沈阳,本溪老边沟,枫叶大道,丹东,不走重复路,古迹,景色5日穷游 - 沈阳游记攻略【携程攻略】
107355 库不齐老牛湾之户外行走 - 库布齐沙漠游记攻略【携程攻略】
10)使用VIS插件进行顺承关系图谱构建与展示, event_graph.py 11)由于VIS作为一个封装的JS库,因此生成的顺承图谱在项目中暂时设置到500,见travel_event_graph.html
以500个顺承事件, 进行顺承事件图谱展示,结果是一张事件网络,这是一个大的顺承关系图谱,由众多小子图谱构成
该子图谱围绕"去丽江旅游"这一出行事件为核心形成的事件群:
该子图谱显示了选择飞机进行出行形成的事件序列
该子图谱显示了选择火车进行出行形成的事件序列
该子图谱描述了一个"预定酒店不愉快事件",从预定到失望到总结,在这条顺承事件链表现出来
该子图谱表示了一个"做饭"场景下的顺承事件,感觉也很有意思