文章/答案/技术大牛

发布

社区首页 >问答首页 >查找dataframe列之间的共现元素数。

问查找dataframe列之间的共现元素数。
EN

Stack Overflow用户

提问于 2022-10-21 17:46:27

回答 1查看 39关注 0票数 1

我有一个DataFrame，有一个网站，类别，并为该网站关键字。

Url  | categories                                | keywords
Espn | [sport, nba, nfl]                         | [half, touchdown, referee,  player, goal]
Tmz  | [entertainment, sport]                    | [gossip, celebrity, player]
Goal [ [sport, premier_league, champions_league] | [football, goal, stadium, player, referee]

可以使用以下代码创建：

data = [{ 'Url': 'ESPN', 'categories': ['sport', 'nba', 'nfl'] ,
         'keywords': ["half", "touchdown", "referee",  "player", "goal"] },
         { 'Url': 'TMZ', 'categories': ["entertainment", "sport"] ,
           'keywords': ["gossip", "celebrity", "player"] },
         { 'Url': 'Goal', 'categories': ["sport", "premier_league", "champions_league"] ,
           'keywords': ["football", "goal", "stadium", "player", "referee"]},
       ]

df =pd.DataFrame(data)

对于关键字列中的所有单词，我希望获得与其相关的类别的频率。结果可能如下所示：

{体育: 1，nba: 1，nfl: 1}，触地: 1，nba: 1，nfl: 1}，裁判：{体育: 2，nba: 1，nfl: 1，premier_league: 1，champions_league:1 }，球员：{体育运动: 3，nba: 1，nfl: 1，premier_league: 1，champions_league:1 }，绯闻：{体育:1，娱乐:1}，名人：{体育:1，娱乐:1，目标：{体育:2，premier_league:1，champions_league:1，nba: 1，nfl: 1}，体育场：{体育运动:1，premier_league:1，champions_league:1 }

dictionary

python-3.x

pandas

list

dataframe

回答 1

Stack Overflow用户

回答已采纳

发布于 2022-10-21 18:11:54

由于列包含列表，因此可以对每个列表的每个元素重复一次行：

result = (
    df.explode("keywords")
    .explode("categories")
    .groupby(["keywords", "categories"])
    .size()
)

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/74157446

复制

相似问题

问查找dataframe列之间的共现元素数。
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问查找dataframe列之间的共现元素数。EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问查找dataframe列之间的共现元素数。
EN