Loading [MathJax]/jax/output/CommonHTML/config.js

开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

社区首页 >问答首页 >使用hadoop和相关技术对大量不同格式的文档进行索引和搜索

问使用hadoop和相关技术对大量不同格式的文档进行索引和搜索
EN

Stack Overflow用户

提问于 2014-08-06 17:25:43

回答 1查看 203关注 0票数 0

在我们的组织中，我们试图围绕大数据、、Hadoop、和相关的生态系统开发一些能力。

我们正在考虑做一个概念的证明，我们的目标是存储，索引和搜索大量的PDF文件，电子邮件文档和word文档。首先，我想知道这是一个大数据用例吗？

如果是，那么它是hadoop用例吗？如果是这样的话，我们应该追求什么技术呢？

我们尝试将PDF存储在HDFS中，并通过mapper作业并行地创建lucene索引，并将索引存储在数据节点本地临时目录中。

但我们不确定我们是否做对了，如何使它成为适当的大数据Hadoop用例，以及如何在技术堆栈上做出决定，无论是Hadoop还是no SQL db，还是SOLR等等。

我们的目标是在大量不同格式的文档上进行概念证明，如果可能的话，我们希望使用Hadoop .有人能帮我们找到正确的方向吗？

谢谢

full-text-search

云联络中心6.1折起

灵活稳定的一体化云联络中心，助力快速搭建集电话、在线交流、音视频通话为一体的客户联络平台

EN

回答 1

Stack Overflow用户

发布于 2014-08-06 21:17:39

如果您不打算对存储在HDFS中的文件的数据进行任何分析，那么Hadoop可能不是您的正确选择。如果您有非结构化或半结构化数据，并且希望将这些数据处理成表以便将来进行分析，则可以使用HDFS与Hive/Pig一起提取它们。您可能不需要NoSQL，除非您想要高可用性或一致性，在您的情况下，我不这样认为。

票数 0

EN

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/25172844

复制

相关文章

编程算法网络安全安全数据库 sql

涉及身份验证的系统都需要存储用户的认证信息，常用的用户认证方式主要为用户名和密码的方式，为了安全起见，用户输入的密码需要保存为密文形式，可采用已公开的不可逆的hash加密算法，比如SHA256, SHA512, SHA3等，对于同一密码，同一加密算法会产生相同的hash值，这样，当用户进行身份验证时，也可对用户输入的明文密码应用相同的hash加密算法，得出一个hash值，然后使用该hash值和之前存储好的密文值进行对照，如果两个值相同，则密码认证成功，否则密码认证失败。

黄啊码

2020/05/29

1.8K0

盐如何抵御彩虹表

https://www.itranslater.com/qa/details/2116746518890808320

doper

2022/09/26

6430

干货 | 提前在开发阶段暴露代码问题，携程Alchemy代码质量平台

sqlalchemy uml 单元测试 git 编程算法

Lyan，携程资深后端开发工程师，负责自动化测试框架及平台类工具开发，关注Devops、研发效能领域。

携程技术

2022/12/14

1.8K1

干货 | 提前在开发阶段暴露代码问题，携程Alchemy代码质量平台

以色列总统，为ChatGPT“带盐”

人工智能神经网络深度学习编程算法

近期，生成式AI又点燃了人工智能的火炬，科技圈也刮起了一股名叫“ChatGPT”的风。

数据猿

2023/03/03

8030

以色列总统，为ChatGPT“带盐”

Dubbo的服务暴露过程

我今天来就带大家看看 Dubbo 服务暴露过程，这个过程在 Dubbo 中其实是很核心的过程之一，关乎到你的 Provider 如何能被 Consumer 得知并调用。

用户1263954

2022/04/07

2560

多线程之儿子买盐问题

https java 网络安全

　　题目：模拟妈妈做饭，做饭时发现没有盐了，让儿子去买盐。只有盐买回来之后，妈妈才能继续做饭的过程。

全栈程序员站长

2022/07/05

1940

什么是：语法糖、语法盐、语法糖精

概述名词别称英文名解释语法糖糖衣语法 Syntactic sugar 指计算机语言中添加的某种语法，这种语法对语言的功能没有影响，但是更方便程序员使用。语法盐 syntactic salt 指的是让写出坏代码更难的语法特性。这些特性强迫程序员做出一些基本不用于描述程序行为，而是用来证明他们知道自己在做什么的额外举动。语法糖精语法糖浆 syntactic saccharine 指的是未能让编程更加方便的附加语法。 ---- ---- Ref: 维基百科 ---- ----

JNingWei

2018/09/27

2.9K0

为什么要在MD5加密的密码中加“盐”

盐（Salt）在密码学中，是指通过在密码任意固定位置插入特定的字符串，让散列后的结果和使用原始密码的散列结果不相符，这种过程称之为“加盐”。

bear_fish

2018/09/19

6.8K0

Docker API暴露下的危机

容器镜像服务 api 容器 shell

Docker 是一个开源的应用容器引擎，让开发者可以打包他们的应用以及依赖包到一个可移植的镜像中，然后发布到任何流行的 Linux或Windows 机器上，也可以实现虚拟化。容器是完全使用沙箱机制，相互之间不会有任何接口。

洛米唯熊

2019/10/09

6690

Docker API暴露下的危机

Dubbo服务暴露的过程详解

java spring dubbo 面试

在当前互联网开发领域中，微服务架构已经成为一种非常流行的架构风格。Dubbo作为一款高性能的分布式服务框架，在微服务架构中扮演着重要的角色。本文将深入探讨Dubbo服务暴露的过程，并给出相应的代码示例。

疯狂的KK

2023/08/10

3760

## Kubernetes集群中流量暴露的几种方案 Kubernetes集群中流量暴露的几种方案

在业务使用Kubernetes进行编排管理时，针对业务的南北流量的接入，在Kuberentes中通常有几种方案，本文就接入的方案进行简单介绍。

KaliArch

2022/06/24

1.1K0

基于 Token 的身份验证方法

local storage token 服务端客户端

使用基于 Token 的身份验证方法，在服务端不需要存储用户的登录记录。大概的流程是这样的：

闻语博客

2021/01/21

1.1K0

mongoDB身份验证

mongodb 数据库 sql 云数据库 MongoDB

为了更安全的访问mongodb，需要访问者提供用户名和密码，于是需要在mongodb中创建用户

周小董

2019/03/25

1.7K0

Dubbo服务暴露过程

dubbo暴露服务有两种情况，一种是设置了延迟暴露（比如delay=”5000”），另外一种是没有设置延迟暴露或者延迟设置为-1（delay=”-1”）：

用户5325874

2020/01/16

1.2K0

两个密码验证插件的故事……

编程算法存储 https 数据库云数据库 SQL Server

很久以前（在遥远的星系中……提示音乐！），MySQL增加了对身份验证插件的支持，这个插件现在称为mysql_native_password。mysql_native_password插件使用SHA1哈希

MySQLSE

2020/09/28

1.1K0

TKE上服务暴露的几种方式

容器服务负载均衡 kubernetes

预备知识 1. K8S 上 Service 类型平台相关基础知识 2. TKE 上四层网络流量暴露方式 3. TKE 上七层网络流量暴露方式 4. TKE 上的 VPC-CNI 5. TKE 上 CLB 直通 Pod 6. TKE 使用已有负载均衡器 7. TKE 使用内网负载均衡器 8. TKE 部署 Nginx Ingress 实际业务场景中最佳实践 1. 对集群内暴露流量 1.1 四层协议 1.2 七层协议 2. 对集群外暴露流量 2.1 七层协议 2.2 四层协议 2.3 端口段规则 2.4 使用Istio

sherlock99

2020/09/07

1.9K0

堂妹问我：Dubbo的服务暴露过程

php dubbo spring

这周去苏州见大佬，没想到遇到一堆女粉丝，其中居然还有澡堂子堂妹，堂妹一遇到我就说敖丙哥哥我超级喜欢你写的dubbo系列，你能跟我好好讲一下他的服务暴露过程么？

敖丙

2020/09/01

4990

使用 frp 安全的暴露内网服务

ssh 单片机 tcp/ip

frp frp 是一个可用于内网穿透的高性能的反向代理应用，支持 tcp, udp 协议，并且为 http 和 https 应用协议提供了额外的能力。

beginor

2020/08/07

3.3K0

hypervisor暴露和隐藏

windows linux 虚拟化单片机

如果在公有云上买了一台虚拟机，如何知道虚拟机运行在什么hypervisor上呢？如果买的是一台裸机如何确认公有云不是拿一台虚拟机滥竽充数裸机呢？一般公有云厂商为了安全不暴露底层，留给用户有限的api做一些非常简单的操作，为了一些功能还给镜像里预装了很多组件，完全不对称，用户在公有云厂商面前裸奔，公有云厂商在用户面前带着层层的面具。

惠伟

2021/02/24

8100

Dubbo之服务暴露

dubbo 网络安全 php

Dubbo 通过使用 dubbo:service配置或 @service在解析完配置后进行服务暴露，供服务消费者消费。

ytao

2020/06/04

7080

相似问题

将盐指标暴露给Grafana

12

我可以暴露哈希盐+密码吗？

20

公开暴露盐是可以接受的吗？

23

如何让NoClassDefFoundError在编译阶段暴露

13

口令、盐和身份验证

50

活动推荐

提供大模型在企业的应用构建、高效便捷

添加站长进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例