专栏首页数据科学旅行搜索词权重分析

旅行搜索词权重分析

加载搜索日志

加载某天用户query session

In [1]:

import pandas as pd
df = pd.read_csv('/Users/spark/pship/tripdata/top_app_search_user_query.csv')

In [2]:

df.head()

Out[2]:

.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }

user_nick

querysum

0

liudaozhen1962

巴厘岛,巴厘岛,巴厘岛,巴厘岛,巴厘岛,巴厘岛,巴厘岛,巴厘岛,巴厘岛,巴厘岛,巴厘岛,巴厘...

1

坏坏坏女孩eva

中国香港广州,中国香港酒店,缅甸签证,泰国,中国香港酒店,中国香港酒店,中国香港,中国香港酒店,中国香港,中国香港广州,中国香港...

2

孙尚香123

海宁皮革城,海宁皮革城,海宁皮革城,海宁,海宁皮革城,埃及,埃及,埃及,埃及,埃及,埃及,埃...

3

晋晴1314

普吉自由行,普吉自由行,普吉自由行,普吉自由行,普吉自由行,普吉自由行,普吉自由行,普吉自由...

4

g1967650712

清莱,清莱,清莱,清莱,清莱,清莱,清莱,清莱,清莱,清莱,清莱,清莱,泰国,泰国清迈旅游,...

In [3]:

df.describe()

Out[3]:

.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }

user_nick

querysum

count

715945

715945

unique

715945

379207

top

haoqixun1989

上海

freq

1

6184

In [4]:

df = df.dropna()

有效去重复

从每个用户的query session中,获取20个 tag 词 未直接采用全部用户query做tag权重分析,可以避免个别用户产生大量的重复query干扰整体

In [5]:

# %%timeit
import jieba
import jieba.analyse
jieba.load_userdict('/Users/spark/pship/nlp/jieba/dict/trip.dict')#使用自定义旅行字典

# e = d[:5000]

def tags(content):
    return','.join(jieba.analyse.extract_tags(content, topK=20))

df['querytag'] = df.querysum.map(tags)

Building prefix dict from the default dictionary ...
Loading model from cache /var/folders/7s/wk98z9d51p1b9_40kcp0d3c00000gp/T/jieba.cache
Loading model cost 1.168 seconds.
Prefix dict has been built succesfully.

In [6]:

df.head()

Out[6]:

.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }

user_nick

querysum

querytag

0

liudaozhen1962

巴厘岛,巴厘岛,巴厘岛,巴厘岛,巴厘岛,巴厘岛,巴厘岛,巴厘岛,巴厘岛,巴厘岛,巴厘岛,巴厘...

巴厘岛,旅游,马尔代夫,新加坡,韩国,大溪地,水屋,济州岛,波德申,云南旅游,塞班岛,甲米,...

1

坏坏坏女孩eva

中国香港广州,中国香港酒店,缅甸签证,泰国,中国香港酒店,中国香港酒店,中国香港,中国香港酒店,中国香港,中国香港广州,中国香港...

中国香港,广州,八达通,签证,缅甸,泰国,酒店,百程,莲花山,美食,中国澳门,南沙,南丫岛,曼谷,越...

2

孙尚香123

海宁皮革城,海宁皮革城,海宁皮革城,海宁,海宁皮革城,埃及,埃及,埃及,埃及,埃及,埃及,埃...

埃及,印度,柬埔寨,清迈,塞班岛,泰国,马来西亚,新加坡,迪拜,旅游团,海宁,皮革

3

晋晴1314

普吉自由行,普吉自由行,普吉自由行,普吉自由行,普吉自由行,普吉自由行,普吉自由行,普吉自由...

自由行,首尔,韩国,三亚,普吉,长滩,中国澳门,日本,厦门,杭州,龙之梦,嘉兴,出发,美国

4

g1967650712

清莱,清莱,清莱,清莱,清莱,清莱,清莱,清莱,清莱,清莱,清莱,清莱,泰国,泰国清迈旅游,...

北海道,旅游,澳大利亚,清莱,澳洲,清迈,泰国,厦门,哈尔滨,俄罗斯,香格里拉,丽江

权重词提取

使用所有的用户的top 20 query tag,汇总计算关键词出现的权重

In [8]:

alltags = jieba.analyse.extract_tags(','.join(df.querytag), topK=50,withWeight=1)
for i in  alltags:
    print(i[0],i[1])

自由行 0.28530648621454635
门票 0.17707583648037084
温泉 0.15158897260839688
旅游 0.14890574763899536
一日游 0.1266516846160216
泰国 0.10842970641468695
三亚 0.10812184831689642
厦门 0.10695954526080509
酒店 0.09887719362416289
长隆 0.0820285479693332
上海 0.07917369460084639
中国台湾 0.06964111051817574
签证 0.0687098730822151
北京 0.06754328607204396
日本 0.06716998401093281
韩国 0.06636275419281691
马尔代夫 0.06522948827756436
中国香港 0.06193421478732575
杭州 0.05983696407325229
广州 0.055085224243862516
欢乐谷 0.054808017391979894
成都 0.04886760098460921
哈尔滨 0.04837198205379578
黄山 0.04576461316339519
九寨沟 0.042686236951448096
丽江 0.042564663953708254
珠海 0.0411535715914538
南京 0.04048524212895173
港澳 0.03977166213676667
深圳 0.039770390419958834
云南 0.038277095799736684
西安 0.03785376072621682
重庆 0.03563183205505705
武汉 0.03549137995528356
普吉岛 0.03383049064595467
乌镇 0.03299365633737334
长白山 0.03214147281804098
张家界 0.03186644524558958
中国澳门 0.03173563496702224
巴厘岛 0.031473388003159464
千岛湖 0.030555508515068937
三亚旅游 0.030094293003255643
苏州 0.029839576878723215
西塘 0.029682882106838525
大理 0.02864672754333205
鼓浪屿 0.028327854410788066
动物园 0.028139425944403676
套票 0.026636298045246025
青岛 0.02658017791010246
汽车票 0.026478346931912637

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 数据科学家的工具箱教程

    非常实用,不扯任何理论概念 不包含python基础教程,numpy pandas等常见已经中文化很好的部分知识。

    spark
  • redis流计算

    使用了tornado的异步和streamz的流处理两个库,需要redis 5.0以上版本

    spark
  • python流数据动态可视化

    “流数据”是连续生成的数据,通常由某些外部源(如远程网站,测量设备或模拟器)生成。这种数据在金融时间序列,Web服务器日志,科学应用程序和许多其他情况下很常见。...

    spark
  • Linux常用命令 - mv命令详解

    21篇测试必备的Linux常用命令,每天敲一篇,每次敲三遍,每月一循环,全都可记住!!

    小菠萝测试笔记
  • Docker部署网站之后映射域名

    Docker中部署tomcat相信大家也都知道,不知道的可以google 或者bing 一下。这里主要是为了记录在我们启动容器之后,tomcat需要直接定位到网...

    Isaac Zhang
  • 国内外优秀好用的自动化测试有哪些?终于整理出来了

    随着自动化测试的不断发展,各种自动化测试工具五花八门眼花缭乱,测性能,测兼容,测压力,测功能,测接口纷繁复杂。今天我们主要分析的是国内外使用最多,功能相对而言更...

    小老鼠
  • servlet中的IllegalStateException

    本文链接:https://blog.csdn.net/u014427391/article/details/97397116

    SmileNicky
  • 放大镜下的央行数字货币

    认识不少做区块链的朋友,近一段时间大家都在转发央行数字货币 DC/EP 相关的文章。加上 Libra 2.0 白皮书发布和新基建包括区块链等新闻,让沉寂一阵子的...

    Henry Zhang
  • MongoDB数据库、集合分片操作

    版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。

    拓荒者
  • 继俄罗斯之后,伊朗法院也宣布了 Telegram 禁令

    上个月,伊朗政府曾发出过将关闭即时通讯应用 Telegram 的信号。现在,德黑兰一家法院颁布了 Telegram 禁令,它要求伊朗电信服务供应商屏蔽掉这款软件...

    周俊辉

扫码关注云+社区

领取腾讯云代金券