-----------------------3 | E
3 | D 我需要列出所有不同的search_product_result值以及这些值在s_product_id中出现的count频率。所需的输出结果集: DISTINCT_SEARCH_PRODUCT | s_product_id_frequency_co
不幸的是,我使用的是一个非常大的语料库,这些语料库分布在数百个.gz文件中--实际上是24 an (打包)的文件。每一行都有一个n-gram (二元、三元、四元等)右边是频率计数。我基本上需要创建一个文件,该文件存储每个四元组的子串频率及其整个字符串频率计数(即,4个一元组频率,3个双元组频率,2个三元