我有一个很长的数据框要展平。数据帧如下所示。我想展平这个表,使用referenceDate companyId作为索引,列应该有两层,第一层是data_item,第二层是N。ValueError: Length of passed values is 239689, index implies 2 pd.pivot_table工作得很好,但在这种情况下我不需要聚合,而且我还担心当数据帧很大(数十亿行)时的性能。实际上我在这里确实有一个内存错误,当我执行
我正在尝试做ngram分析,因为在tidytext中,我有一个770个演讲的语料库。然而,tidytext中的函数unnest_tokens将数据帧作为输入。当我检查示例(jane austin book )时,书中的每一行都存储为数据框中的行。我无法将语料库转换为数据帧,既不能一次转换一个语音,也不能一次转换所有语料库。我如何使用语料库上的非嵌套标记对整