Loading [MathJax]/jax/output/CommonHTML/config.js

开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

社区首页 >问答首页 >在不破坏文件格式的情况下，通过键提取tfidf向量

问在不破坏文件格式的情况下，通过键提取tfidf向量
EN

Stack Overflow用户

提问于 2014-05-06 10:34:54

回答 1查看 156关注 0票数 0

在输出格式的seq2sparse交付中，我有大约200000个tfidf向量.现在我需要提取500，但不是随机的，比如分裂函数。我知道其中500个密钥，我需要它们的数据格式与来自seq2sparse的数据格式相同。当我用200000个条目打开序列文件时，我可以看到键是用org.apache.hadoop.io.Text编码的，而值是用org.apache.mahout.math.VectorWritable编码的。

但是当我尝试使用https://github.com/kevinweil/elephant-bird/blob/master/mahout/src/main/java/com/twitter/elephantbird/pig/mahout/VectorWritableConverter.java时

和

https://github.com/kevinweil/elephant-bird/blob/master/pig/src/main/java/com/twitter/elephantbird/pig/store/SequenceFileStorage.java

在Pig拉丁文中，用于读和写它们的输出具有键和值都是org.apache.hadoop.io.Text。

我确实需要这种格式的500条条目，因为我想在trainnb和testnb中使用它们。

基本上，它就足以知道我如何能够做一些类似于mahout的反向操作。

语音识别特惠，低至14.9元！

提供业界非常具有性价比的语音识别服务，超高识别准确率，适用多场景

EN

回答 1

Stack Overflow用户

发布于 2014-05-08 08:14:28

虽然没有特定的Mahout命令可以这样做，但您可以使用Mahout的命令编写一个相对简单的实用函数：

org.apache.mahout.common.Pair;
org.apache.mahout.common.iterator.sequencefile.SequenceFileIterable;
org.apache.mahout.math.VectorWritable;

以及：

org.apache.hadoop.io.SequenceFile;
org.apache.hadoop.io.Text;
com.google.common.io.Closeables;

您可以这样做：

// load up the 500 desired keys with some function
Vector<Text>desiredKeys = getDesiredKeys();
//create a new SequenceFile writer for the 500 Desired Vectors 
SequenceFile.Writer writer =
        SequenceFile.createWriter(fs, conf, output500filePath ,
                                  Text.class,
                                  VectorWritable.class);         
try {
  // create an iterator over the tfidfVector sequence file 
  SequenceFileIterable<Text, VectorWritable>seqFileIterable =
          new SequenceFileIterable<Text, VectorWritable>(
              tfidfVectorPath, true, conf)

  // loop over tfidf sequence file and write out only Pairs with keys
  // contained in the desiredKeys Vector to the output500file 
  for (Pair<Text, VectorWritable> pair : seqFileIterable) {
      if(desiredKeys.contains(pair.getFirst())){
            writer.append(pair.getFirst(),pair.getSecond());
      }
  }
}finally {
  Closeables.close(writer, false);
}

并使用"output500file“的路径作为对trainnb的输入。使用vector.contains()并不是最有效的方法，但这将是一般的想法。

票数 0

EN

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/23502362

复制

相关文章

Java 指定日期和日期间隔，返回间隔之前 | 之后的日期

public class DateUtil { /** * 指定日期和日期间隔，返回间隔之前的日期 * @param specifiedDay * @param interval * @return */ public static String getSpecifiedDayAgo(String specifiedDay, int interval){ return getSpecifiedDay(specifiedDay

大数据工程师-公子

2019/03/14

2.6K0

bootstrap 日期控件起始日期&结束日期相互约束

编程算法 bootstrap html

使用bootstrap的日期控件需要单独引入bootstrap-datetimepicker.min.css和bootstrap-datetimepicker.min.js 详情及文件可以通过下面地址下载：http://www.bootcss.com/p/bootstrap-datetimepicker/index.htm

程序新视界

2022/05/06

3K0

bootstrap 日期控件起始日期&结束日期相互约束

微信小程序日期选择器（起始日期与终止日期）轮子复制粘贴直接用————modal组件

先上图。每次开始默认获取当前选择的日期。 wxml <view class="beijing"> <view class="second"> <view class="second_1"> <view class="second_1_1"> <button bindtap="begin" type="primary">点击重选</button> </view> <view class="second_1_2">

啦啦啦啦

2023/02/11

7120

微信小程序日期选择器（起始日期与终止日期）轮子复制粘贴直接用————modal组件

Oracle中的日期间查询

oracle 编程算法

在Oracle中，如果要进行日期间的查询需要用到Oracle的内置函数to_date()。

陈树义

2022/04/29

3.6K0

【爬虫军火库】生成指定日期间的日期列表

今天没能空下来时间写太多，所以只简单记录一个很具体的需求：指定了起止日期，如何生成一个日期列表。这个需求是我之前在抓取一个环保的历史数据时遇到的：如图，在这个页面上，我们需要手动通过日期控件选

不二小段

2018/04/08

1.4K0

【爬虫军火库】生成指定日期间的日期列表

拉链表起始时间转成多行日期

dataphin拉链表起始时间转成多行日期： (ps:dataphin split()怎么都识别不出空格，自闭了。。。替换成字符解决了)

chimchim

2022/11/13

4080

js根据起始日期加间隔天数计算出结束日期

getNewDay(dateTemp, days) { dateTemp = dateTemp.split("-"); //转换为MM-DD-YYYY格式 var nDate = new Date(dateTemp[1] + "-" + dateTemp[2] + "-" + dateTemp[0]); var millSeconds = Math.abs(nDate) + days * 24 * 60 * 60 * 1000; var rDa

Wyc

2023/03/23

6.3K0

js根据起始日期加间隔天数计算出结束日期

如何设置Code39码的起始码和终止码星号

Code 39码支持26个英文大写字母（A-Z），十个数字（0-9），以及符号（-、.、_（空）、*、$、/、+、%）。可以对任意长度的数据进行编码，Code 39码用于物流跟踪、生产线流程等方面，是比较常用的条形码类型之一。39码的起始码和终止码为固定的星号“*”，即39码前后各有一个星号“*”来标识条形码的开始和结束。下面我们就介绍如何设置这个起始码和终止码。

神奇像素科技

2022/01/13

1.3K0

如何设置Code39码的起始码和终止码星号

datepicker 日期连续选择（需要改源码）

先上效果：代码： <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml

deepcc

2018/05/16

1.6K0

MySQL获取当前时间与日期间隔[通俗易懂]

https 网络安全数据库云数据库 SQL Server sql

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至举报，一经查实，本站将立刻删除。

全栈程序员站长

2022/11/08

6.9K0

python 获取n天前的日期和日期列表

import datetime def get_nday_list(n): import datetime before_n_days = [] for i in range(1, n + 1)[::-1]: before_n_days.append(str(datetime.date.today() - datetime.timedelta(days=i))) return before_n_days

用户5760343

2022/05/13

3.2K0

Power Query如何计算两个日期间隔月数

(Date.Year([止])-Date.Year([起]))*12+Date.Month([止])-Date.Month([起])

wujunmin

2021/09/07

2.4K0

Power Query如何计算两个日期间隔月数

当前日期得到本周的开始和结束日期

html regex javascript java 编程算法

本文由来源 21aspnet，由 javajgs_com 整理编辑，其版权均为 21aspnet 所有，文章内容系作者个人观点，不代表 Java架构师必看对观点赞同或支持。如需转载，请注明文章来源。

Java架构师必看

2021/03/22

2.8K0

golang如何计算两个日期之间的日期差？

golang如何计算两个日期之间的日期差？日期格式：“2017-09-01” ，“2018-03-11”

双面人

2022/09/28

7.4K0

Java 实现将连续的日期按照天数进行分割

目录 1 工具类 2 实现 1 工具类 public static List<Map<String,Object>> getCycleList(int cycleNum, String startTime, String endTime) throws ParseException, ParseException { System.out.println("统计的时间段为：从"+startTime+"到"+endTime); Date endParse = new

一写代码就开心

2023/02/13

1.7K0

Java 实现将连续的日期按照天数进行分割

如何用Python获取两个日期之间的日期？

问：如何用Python获取两个日期之间的日期？ def date_range(start, end): delta = end - start # as timedelta days = [start + timedelta(days=i) for i in range(delta.days + 1)] return days start_date = datetime(2020, 12, 1) end_date = datetime(2020, 12, 5) print(d

TalkPython

2020/12/11

5.8K0

Power Pivot中如何计算具有相同日期数据的移动平均？

解释：这里需要2个条件，除了日历条件，还需要添加一个日期是否有值的条件，也就是汇总金额这里需要为非空。

逍遥之

2020/03/24

3.1K0

Power Pivot中如何计算具有相同日期数据的移动平均？

EXCEL中日期对应的数值如何转换为ABAP中的日期

abap 存储 excel 程序开发

默认情况下，Excel把1900-1-1 0:00:00存储为1，把1900-1-1 0:00:00以后的每一个时刻存储为该时刻与1900-1-1 0:00:00这个时刻的差值（以天为单位）。

matinal

2023/10/13

2430

python获取日期加减之后的日期

python语言中的datetime模块可以利用其中的方法获取不同的日期，比如获取当前日期、明天、昨天、上个月、下个月和明年。下面利用几个实例说明这些日期的获取方法，操作如下：

周小董

2019/03/25

10.9K0

python获取日期加减之后的日期

Power Pivot智能日期运用——连续时间（1）

(八) 连续时间 1. Datesinperiod A. 语法 DATESINPERIOD ( <Dates>, <StartDate>, <NumberOfIntervals>, <Interval> ) 位置参数描述第1参数 Dates 需要计算的日期列第2参数 StartDate 开始时间，日期表达式第3参数 NumberOfIntervals 一个整数数字第4参数 Interval 时间类型（年季月日） B. 返回表——单列时间数据的表 C. 注意事项返回的结果日期必须是第1参数范

逍遥之

2020/03/24

7170

相似问题

起始日期和终止日期

30

在Oracle中具有给定期间的起始日期和终止日期的周列表

10

如何从flatpicker获取起始日期和终止日期？

128

获取多个起始/终止日期的日期范围

12

是否验证起始日期和终止日期？

10

活动推荐

体验智能媒资降冷，云点播优惠不要错过！

添加站长进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例