首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

为什么我不能从数据库中保存和检索我的向量(二进制)和特殊字符?

在传统的关系型数据库中,保存和检索二进制数据和特殊字符可能会遇到一些限制和挑战。这些限制主要涉及以下几个方面:

  1. 数据类型限制:传统关系型数据库通常只支持常规的数据类型,如整数、浮点数、字符串等,对于特殊的二进制数据和特殊字符的存储和检索支持有限。因此,直接将二进制向量和特殊字符存储到数据库中可能会导致数据损失或无法正确处理。
  2. 存储效率:对于大型的二进制向量或者包含大量特殊字符的数据,存储效率可能会较低。传统关系型数据库通常使用固定长度的字段,如果存储变长的二进制向量或特殊字符,会导致存储空间的浪费。
  3. 查询性能:传统关系型数据库主要以行和列的方式组织数据,对于大规模的二进制向量和特殊字符的查询,可能会导致较低的查询性能。特别是在需要进行复杂的匹配、搜索、排序等操作时,可能会受到限制。

为了解决以上问题,推荐使用一些专门针对存储和检索二进制数据和特殊字符的解决方案,如对象存储服务(Object Storage Service)。对象存储服务是一种云存储服务,专门用于存储海量非结构化数据,包括二进制向量、特殊字符等。与传统关系型数据库相比,对象存储服务具有以下优势和特点:

  1. 弹性存储:对象存储服务提供按需分配和扩展存储容量的能力,可以灵活存储各种类型的数据,包括二进制向量和特殊字符,避免了存储空间浪费的问题。
  2. 高可靠性:对象存储服务采用多副本和冗余备份机制,确保数据的高可靠性和持久性。即使某个节点或存储设备发生故障,也可以保证数据的可用性。
  3. 高扩展性:对象存储服务采用分布式架构,可以无缝地扩展存储容量和处理能力,适应不断增长的数据量和访问压力。
  4. 高性能访问:对象存储服务提供基于标签、元数据等方式的高效索引和查询功能,可以快速定位和检索二进制向量和特殊字符,提供高性能的数据访问能力。
  5. 安全性保障:对象存储服务提供丰富的数据安全性和访问控制机制,包括数据加密、访问控制列表、身份认证等,保障数据的机密性和完整性。

在腾讯云中,可以使用腾讯云的对象存储服务 COS(Cloud Object Storage)来保存和检索二进制向量和特殊字符。COS 提供了海量、安全、低成本的云端存储服务,支持通过 API、SDK 等方式方便地进行数据的上传、下载和查询。您可以访问腾讯云对象存储 COS 的产品介绍和相关文档,了解更多关于 COS 的信息和使用方法。

腾讯云对象存储 COS 产品介绍:https://cloud.tencent.com/product/cos

相关搜索:我需要建议拆分单词和字符串中的特殊字符如何在我的输入中只允许数字和特殊字符?为什么我不能从Firebase实时数据库中读取和显示数据?我想在C中逐行读取和添加文件中的整数。文件也有字母和特殊字符为什么我不能从我的Swift代码和node.js云函数代码中获得我的格子链接令牌?为什么我的函数处理(向量...)和'#(...)在球拍中不同,如果两者都是向量?Hi我如何检查java中接受数字、字符和特殊字符的正则表达式?我想要获取SQL Server中@之前和任何其他特殊字符或空格之后的字符串我的第二个" levelup“按钮不工作,更新函数也不能从fight和levelup函数中调用我是Laravel的新手,我想将我的日志和错误保存在数据库中,因为我需要在页面上显示它。在windows中安装vue-cli或laravel artisan命令时,我的cmd中没有出现特殊字符和图标为什么我在测试1和Test3的输出中偶尔会得到垃圾字符?为什么我的应用程序允许我将文件保存到Vista中的Windows和System32文件夹?如何显示我上传到服务器文件夹中的图片?我用的是php和mysql,在数据库里保存的只是图片的名字如何在parm请求中传递字符串并在我的请求路径中循环它,而无需保存到文件和创建表为什么我的表单数据没有添加到我的数据库中的flask-sqlalchemy和jinja模板?我不知道为什么要在括号内添加加号和撇号,因为它在python中的字符串函数内。如果我使用Heroku托管我的d.py机器人,它可以在mongodb中写入和保存到我的数据库吗?我想要传递总数和计数器值到另一个文本框中的php页面,并保存到数据库?
相关搜索:
页面内容是否对你有帮助?
有帮助
没帮助

相关·内容

一起来学matlab-字符串操作 10_4 MATLAB中的字符串表示

中的字符串符号 MATLAB将字符串当做一个行向量,每个元素对应一个字符;也就是将字符串保存在一个行向量中,向量的每个元素对应一个字符。...>> SA=['hello';'world';'我是许某某'] SB=['你好' '但是我不好' '有没有想过你为什么不好';'那不知道你为什么不好啊' '那就是 命运吧'] % 一行中的字符只算单引号中的...我是许某某 SB = 你好但是我不好有没有想过你为什么不好 那不知道你为什么不好啊那就是 命运吧 串联的矩阵的维度不一致。...利用这个特点,可以用[]将任意字符串连接起来 >> [SA(1,:) SA(2,:) SA(3,:)] ans = helloworld我是许某某 对于'也是可以标识特殊字符的标识,因此: ?...通常可以打印的字符的ASCII码在32-127范围之间,同时任意8位二进制数的范围在0-255之间,如果数值不是正整数,或是超出了上面的范围,则实际上是打印出ASCII码为fix(rem(A,256))

1.1K20

LangChain基础知识入门

在NLP中,Embedding的作用就是将数据进行文本向量化。...上述代码中,我们分别使用了两种方法来进行文本的向量表示,他们最大不同在于:embed_query()接收一个字符串的输入,而embed_documents可以接收一组字符串。...2.6.3 VectorStores VectorStores是一种特殊类型的数据库,它的作用是存储由嵌入创建的向量,提供相似查询等功能。...一个开源嵌入式数据库 ElasticSearch ElasticSearch Milvus 用于存储、索引和管理由深度神经网络和其他机器学习(ML)模型产生的大量嵌入向量的数据库 Redis 基于redis...的检索器 FAISS Facebook AI相似性搜索服务 Pinecone 一个具有广泛功能的向量数据库 2.6.4 检索器 检索器是一种便于模型查询的存储数据的方式,LangChain约定检索器组件至少有一个方法

33710
  • 明明表中没这条数据,竟然还能查出来?

    如果下拉框中没有数据,则在输入框中标识这个品牌是用户自定义的品牌。 然后通过创建商品接口,将该品牌添加到数据库当中。 现在的问题是yoyo这个品牌,用户自定义了,但不能保存到数据库当中。...它是yoyo英文字母的大写。 奇怪,我们查小写的yoyo字符串,为什么会把大写的YOYO查出来了? 于是,我查了brand表的表结构。...字符集CHARSET用的utf8mb4,可以保存一些表情符号等特殊字符。 校对规则COLLATE用的utf8_unicode_ci。...还有一种是bin,它是将字符串中的每一个字符用二进制数据存储,区分大小写。 使用最多的是 utf8mb4_general_ci(默认的)和 utf8mb4_bin。...这个专栏总结了我10年工作中,遇到过的100个非常有代表性的技术问题,非常有参考和学习价值。 Java、Spring、分布式、高并发、数据库、海量数据、线上问题什么都有。

    9610

    【腾讯云云上实验室】用向量数据库为非结构化数据查询插上飞翔的翅膀——以企业知识库为例

    前言 以前我曾疑惑,对于非结构化的内容,如一张图片或一段视频,如何实现搜索呢?图片或视频作为二进制文件,我们如何将其转化为可搜索的数据并存储起来,然后在搜索时将其还原呢?...流程比较复杂,我简单描述一下使用神经网络将知识库分割,一条条的记录。然后使用向量化模型进行向量化,存入到向量数据库中。最后通过API来向外提供检索,查询。...建好模后,我们来处理知识库的原始数据,将我们知识库的文本内容以txt文件保存下来(目前图片无法进行向量化保存),保存下来后,我们需要将内容进行拆分,分割成一小段,一小段,可以以逗号,句号,和换行符进行分割...、它是如何工作的、关键概念、为什么使用腾讯云向量数据库、支持的索引和指标、架构和相关连接方式" }, { "id" : "003", "time": "2023-10-27",...包含了全球产业数据库的关键发展趋势,AGI为什么需要向量数据库,行业实践,扫码领取。

    52020

    零基础学Python--------第5章

    从上面的结果中可以看出,在默认的情况下,通过len() 函数计算字符串的长度,不区分英文,数字和汉字,所有字符都按一个字符计算。...sub:表示要检索的子字符串。 start:可选参数,表示检索范围的起始位置的索引,如果不指定,则从头开始检索。 end:可选参数,表示检索范围的结束位置的索引,如果不指定,则一直检索到结尾。...5.1.7 去除字符串中的空格和特殊字符  用户在输入数据时,可能会无意中输入多余的空格,或在一些情况下,字符串前后不允许出现空格和特殊字符,此时就需要去除字符串中的空格和特殊字符。...在Python 中,有两种常用的字符串类型,分别为str 和bytes。其中,str 表示Unicode 字符(ASCII 或者其他);bytes 表示二进制数据(包括编码的文本)。...例如,将5.2.1 小节中的示例编码后会得到二进制数据(保存在变量byte 中),要进行解码可以使用下面的代码: verse = '野渡无人舟自横' byte = verse.encode('GBK')

    1.5K10

    如何让PostgreSQL的向量数据速度与Pinecone一样快

    我们还观察到,如果定制数据库不更快,那么就没有理由使用它们,因为它们不可能与 PostgreSQL 等通用数据库丰富的功能集和生态系统竞争。...在如此大的规模下,将所有内容存储在内存中在经济上是不可行的。因此,该算法旨在支持在 SSD 上存储向量并使用更少的 RAM。它的细节在论文中描述得很好,因此我下面只会提供一些直觉。...事实上,pgvector 的 HNSW 索引刚刚在其最新的 0.7.0 版本中添加了 BQ(欢呼!)。 大多数向量数据库检索 K 个结果的工作方式如下。...BQ 压缩算法以一种非常简单的方式将浮点向量转换为二进制向量:对于向量中的每个元素,如果值大于 0.0,则将二进制值设为 1;否则,将二进制值设为 0。然后,距离函数简单地变为 XOR 函数。...为什么是 XOR?好吧,你会发现许多数学解释(我们都不太喜欢),但我们使用的直觉是二进制向量将空间划分为象限,如图 3 所示,而 XOR 函数只是计算从一个象限到另一个象限需要穿过多少个平面。

    20310

    用GPT-4和ChromaDB与文本文件对话教程

    在这篇文章中,我将: •解释什么是向量数据库•解释什么是ChromaDB•网络爬取LangChain文档•将LangChain文档存储在本地的Chroma DB向量数据库中•创建一个检索器来检索所需的信息...(LLM)来提问关于您的数据的问题...[2] 向量数据库 让我们从讨论什么是向量数据库以及为什么它们在处理复杂数据方面如此出色开始。...,如下所示: 阅读下文,了解如何可视化自己的向量数据库 在下面的使用案例中,我们将创建一个能够从此数据库中检索信息的GPT聊天机器人。...3个单词 words = cleaned_text.split()[:3] file_name_prefix = "_".join(words) # 用下划线替换特殊字符和空格 file_name_prefix...现在你知道如何使用向量数据库来处理大量文本数据了。如果我这么说不过分的话,真的很酷,而且并不难。但是,我们还没有完成。我还想向你展示一件事,那就是将你的向量数据库可视化到 3D 中。

    2.3K50

    向量数据库:抛弃数据库范式的代价?

    鉴于迄今为止的实验评估,我个人对许多向量数据库在实际生产环境中的应用效果持怀疑态度,也建议所有开发者在选择向量数据库之前进行更加全面的评估。...以 HNSW 为例,数据的索引是在插入过程中实时完成的,这一过程既缓慢又会影响查询效率。因此,许多向量数据库的插入速度不超过 10MB/s,无法满足大量数据入库时的性能需求。...首先,由于向量数据查询的特殊性质,传统的 Sharding 和索引方法并不完全奏效。...另一方面,由于缺少测试集合,向量索引的实际性能很难被全面的评估,比如我们发现图索引的连通性在某些数据特性下会降低,尤其在高过滤、频繁删除的场景中,这使得部分数据变得难以检索,而绝大多数向量数据库并未针对这些特殊场景作出处理...此外,向量数据库开发者们常常忽略向量检索的概率特性。在绝大多数应用场景中,追求 99% 的准确率下的高性能和低成本比追求 100% 的绝对准确率更为重要。

    20311

    【腾讯云云上实验室-向量数据库】Tencent Cloud VectorDB为非结构化数据查询插上飞翔的翅膀——以企业知识库为例

    前言 以前我曾疑惑,对于非结构化的内容,如一张图片或一段视频,如何实现搜索呢?图片或视频作为二进制文件,我们如何将其转化为可搜索的数据并存储起来,然后在搜索时将其还原呢?...向量数据库 向量数据库是一种专门用于存储和检索高维向量的数据库,适用于处理图像、视频、音频、文本等非结构化数据。随着非结构化数据搜索需求的不断增长,向量数据库在近年来得到了广泛应用。...流程比较复杂,我简单描述一下使用神经网络将知识库分割,一条条的记录。然后使用向量化模型进行向量化,存入到向量数据库中。最后通过API来向外提供检索,查询。...建好模后,我们来处理知识库的原始数据,将我们知识库的文本内容以txt文件保存下来(目前图片无法进行向量化保存),保存下来后,我们需要将内容进行拆分,分割成一小段,一小段,可以以逗号,句号,和换行符进行分割...、它是如何工作的、关键概念、为什么使用腾讯云向量数据库、支持的索引和指标、架构和相关连接方式" }, { "id" : "003", "time": "2023-10-27",

    44610

    RAG实操教程langchain+Milvus向量数据库创建你的本地知识库

    将字符串拆分为适合模型的对话窗口的大小,称为 chunk,chunk的大小需要依据模型的会话窗口设定。 保存拆分好的文档保存到向量数据库中。 设计向量数据库的数据库、集合、字段,索引等信息。...从向量数据库中检索需要的数据 这些步骤 langchain 已经给结合自己的工具连做好了封装,所以我们直接使用 langchain 来构建RAG。...如果设置小了,那么我们一次查询的数据的信息量就会少,势必会导致信息的缺失。 如果设置大了,一次检索出来的数据就会比较大,LLM 产生的token就会多,费用贵,信息不聚焦等问题。...Embedding model 这里需要明确的两个功能是: embedding Model所做中工作就是将 image、Document、Audio等信息向量化. vectorBD 负责保存多维向量 我这里使用...此外,角色设定还可以帮助限定AI助手的行为边界,避免其做出不恰当或有害的回应。设定明确的角色定位,有助于AI助手更好地理解自己的身份和职责,从而提供更加合适和有帮助的回答。

    96011

    隐私保护之隐私信息检索

    隐私信息检索是一种加密协议,旨在保障数据使用者的私隐,允许客户端从公共数据库中检索记录,同时向数据所有者隐藏检索记录的身份。实际上,检索数据而不向数据所有者透露其身份的可能性几乎为零。...在1995年,业界提出了 隐私信息检索方案,在该方案的协议中,用户查询保存数据库的每个服务器,确保每个单独的服务器得不到关于用户感兴趣项的标识信息。...这种编码允许人们向消息中添加冗余或位字符串,并将其编码成更长的位字符串,即使一定比例的位字符串被破坏,消息仍然可以恢复。在纠错码的典型应用中,消息首先被分成小块,然后每个小块被分别编码。...初识隐私信息检索 如果将数据建模为 n 位字符串 X,该字符串只在少量服务器 S1,... ,Sk 之间复制。用户持有一个索引 i (介于1和 n 之间的整数) ,并对获取位 Xi 的值感兴趣。...假设用户想要检索数据库的第 i 位,并且知道了向量 E1,... ,En 的集合。因此,用户的目标是恢复 Ei 的多项式 f (由服务器持有)的值。

    29630

    LangChain +Streamlit+ Llama :将对话式人工智能引入您的本地设备

    现在,让我们深入研究主要部分,我们将把外部文本作为问题回答目的的检索器进行整合。 第4节:生成用于问题回答的嵌入和向量存储 在许多LLM应用中,需要用户特定的数据,而这些数据不包含在模型的训练集中。...4.向量存储:用于将上述块向量存储在向量数据库中。5.检索器:用于检索与查询中的矢量相似的一组/多组矢量,这些矢量以同一潜在空间中的嵌入形式存在。...嵌入和存储嵌入向量是存储和搜索非结构化数据的普遍方法。在查询时,非结构化查询也被嵌入,检索与嵌入查询最相似的嵌入向量。这种方法能够有效地从向量存储中检索相关信息。...在这里,我们将利用Chroma,一种嵌入式数据库和向量存储,专门用于简化包含嵌入的AI应用程序的开发。...到目前为止,我们已经见证了嵌入和向量存储在从大量文件集合中检索相关片段方面的显著能力。现在,是时候将这个检索到的片段作为上下文与我们的查询一起呈现给LLM了。

    1.6K20

    mysql密码字段类型_MySQL 字段类型

    ;此处宽度指示器的作用在于该字段是否有zerofill,如果有就未满足6位的部分就会用0来填充),这样当从数据库检索一个值时,可以把这个值加长到指定的长度。...例如,指定一个字段的类型为 INT(6),就可以保证所包含数字少于 6 个的值从数据库中检索出来时能够自动地用空格填充。需要注意的是,使用一个宽度指示器不会影响字段的大小和它可以存储的值的范围。...这些大型的数据用于存储文本块或图像、声音文件等二进制数据类型。 TEXT 和 BLOB 类型在分类和比较上存在区别。BLOB 类型区分大小写,而 TEXT 不区分大小写。...还去除了重复的元素,所以 SET 类型中不可能包含两个相同的元素。 希望从 SET 类型字段中找出非法的记录只需查找包含空字符串或二进制值为 0 的行。...,当日热门,生日多少天等等逻辑 不要使用null 为什么这么说呢,因为MYSQL对NULL字段索引优化不佳,增加更多的计算难度,同时在保存与处理NULL类形时,也会做更多的工作,所以从效率上来说,不建议用过多的

    14.5K20

    矢量数据库对比和选择指南

    矢量数据库是为实现高维矢量数据的高效存储、检索和相似性搜索而设计的。使用一种称为嵌入的过程,将向量数据表示为一个连续的、有意义的高维向量。...本文将研究存储/检索向量数据和执行相似性搜索的实用方法,在我们深入研究之前,首先先介绍矢量数据库的两个关键功能: 1、执行搜索的能力 当给定查询向量时,向量数据库可以根据指定的相似度度量(如余弦相似度或欧几里得距离...如果需要重新构架大型项目,不建议使用。 3、开源矢量库 对于许多开发者来说,Faiss、Annoy和Hnswlib等开源矢量库是一个很好的起点。Faiss是一个用于密集向量相似性搜索和聚类的库。...还有像像Redis这样的键值数据库和其他特殊用途的数据库,如Neo4j(图数据库) 几乎所有这些NoSQL数据库都是最近才添加矢量搜索扩展而具备矢量能力的,所以如果要是用的话一定要做好测试。...我的观点一直没有变,那就是如果复杂数据一定要存到关系型数据库中,像MongoDB这样的当作辅助存储是没问题,但当作主要存储和主要查询那是所谓的自称为“全栈”的前端干出来的事,因为什么都不懂,所以觉得什么都简单

    1.2K50

    布隆过滤器(bloom filter)的原理及在推荐去重中的应用

    遇到的问题 在业务中,我需要给每个用户保存1w条浏览记录,之后每一次的返回值都要和历史记录做一个去重,即保证用户不会重复看到同一篇文章....每次返回用户10条数据,每一条都需要和数据库中的1w条做比对,听起来效率就很差的样子....布隆过滤器 介绍 以下摘自维基百科: 布隆过滤器(英语:Bloom Filter)是1970年由布隆提出的。它实际上是一个很长的二进制向量和一系列随机映射函数。...布隆过滤器可以用于检索一个元素是否在一个集合中。它的优点是空间效率和查询时间都远远超过一般的算法,缺点是有一定的误识别率和删除困难。...优点 效率高,插入和查询操作都是O(k). 空间节省,每一个元素映射为一个二进制位,必须节省. 安全,保存了数据的全集,但是没有保存数据本身.

    2.3K30

    查询+缓存 —— 用 Elasticsearch 极速提升您的 RAG 应用性能

    在深入之前,让我们先简要理解 RAG 应用的概念。RAG,即检索增强生成,是一种结合了信息检索和生成式AI模型的技术。通过这种方式,模型能够从庞大的数据库中检索信息,并生成准确、相关的回答。...Elasticsearch 作为缓存层的革新之举Elasticsearch 是一种向量数据库,它不仅能够存储问题和答案的原始文本,还能够将它们的语义或“基于含义的表达”转化为数值向量形式进行存储。...0.80不是的我女儿结婚需要请假,可以吗?0.97是的是的我如何申请因个人家庭活动而请假?0.72不不参加家庭仪式请假的流程是什么?0.78不是的我可以因为我兄弟姐妹的婚礼请几天假吗?...在没有缓存的第一次运行中,假设用户查询需要 300 毫秒才能从 RAG 接收生成的答案。现在,将该响应存储在 Elasticsearch 中后,会出现第二个类似的查询。...它对性能、成本和用户体验具有现实意义。总结通过利用 Elasticsearch 作为向量数据库的功能及其相似性参数,我们为响应速度更快、更具成本效益且可扩展的生成 AI 系统打开了大门。

    1.6K11

    使用 TiDB Vector 搭建 RAG 应用 - TiDB 文档问答小助手

    text-embedding-ada-002:这是一种文本嵌入模型,它的主要功能是将文本转换为高维向量表示(嵌入)。这种嵌入可以捕捉文本的语义和语境信息,通常用于文本相似度计算、推荐系统等任务中。...到这里不知道大家会不会有个疑问: 既然检索(Retrieval)就能得到想要的答案,为什么要多此一举再问一遍 LLM ?...2、向量检索召回 知识库准备好以后就可以根据我们提出的问题在语义层面搜索相关内容,主要依赖 TiDB 的向量检索能力,这一步称为召回。...前面提到为什么生成答案还要再调用一次 LLM ,不直接使用 TiDB Vector 中返回的结果?...总结 借助 TiDB 向量检索能力,可以非常轻松地和 AI 生态进行打通,这也意味着 TiDB 的使用场景变得更加丰富。可以预见的是 AI 浪潮会持续火热,可能以后向量检索就成了数据库的标配。

    25810

    图像检索系列——利用 Python 检测图像相似度

    图像指纹 图像指纹和人的指纹一样,是身份的象征,而图像指纹简单点来讲,就是将图像按照一定的哈希算法,经过运算后得出的一组二进制数字。如下图所示: ?...以下定义摘自维基百科: 在信息论中,两个等长字符串之间的汉明距离(英语:Hamming distance)是两个字符串对应位置的不同字符的个数。...《图像相似度中的Hash算法》 代码可在微信公众号「01二进制」后台回复「检测图像相似度」获得 三种哈希算法的实现代码如下: ahash ? dhash ? phash ?...现在诸如谷歌识图、百度识图几乎都是采用深度学习的方式进行相似性检索,这个下篇文章介绍。 为什么余弦相似度不适合用来检测图片相似度 最后我们来讨论下为什么不使用余弦相似度来检测图片的相似度。...之后我将会讲述如何通过深度学习抽取图像特征的方式来比较图片的相似度。 由于能力有限,在整理描述的过程中难免会有些错误,如有建议,可以留言区批评指正?

    5K30

    mongodb存储的数据类型(redis存储数据类型)

    大家好,又见面了,我是你们的朋友全栈君。 MongoDB数据存储结构 1.基本概念 在MongoDB中数据存储的基本概念是数据库、集合、文档。...MongoDB的默认数据库为”db”,该数据库存储在data目录中。 MongoDB的单个实例可以容纳多个独立的数据库,每一个都有自己的集合和权限,不同的数据库也放置在不同的文件中。...一些特定的服务器端命令也只能从这个数据库运行,比如列出所有的数据库或者关闭服务器。...随之而来的一个问题是:既然没有必要区分不同类型文档的模式,一个数据库还有必要使用多个集合吗? 这里的不区分仅仅是物理结构的不区分,但实际开发中由于业务的分区,会产生多个逻辑集合单元。...Min/Max keys 将一个值与 BSON(二进制的 JSON)元素的最低值和最高值相对比。

    3.7K11

    数据科学家常遇到的10个错误

    不共享代码中引用的数据 数据科学需要代码和数据。因此,要使其他人能够重现您的结果,他们需要有权访问数据。虽然看起来很基础,但是很多人忘记了共享代码的数据。...pd.read_csv('file-i-dont-have.csv') # 错误 do_stuff(df) 解决方案:使用d6tpipe共享数据文件,或上传到S3 / web / google等或保存到数据库...将数据与代码混合 由于数据科学代码需要数据,为什么不将其存储到同一目录?当您使用它时,也可以在其中保存图像,日志和其他垃圾文件。...循环 和函数一样,for循环是在学习编码时首先要学习的东西。它们易于理解,但它们速度慢且过于冗长,通常表示您不知道有向量化的替代方案。...不记录代码 我明白你着急进行一些分析。您可以一起努力取得成果给客户或老板。然后一个星期后,他们说“请您更新此内容”。您看着您的代码,不记得为什么要这么做。现在想象其他人需要运行它。

    78620
    领券