首页
学习
活动
专区
工具
TVP
发布

深度学习之tensorflow实战篇

专栏作者
604
文章
1403579
阅读量
84
订阅数
自然语言处理-搜索中常用的bm25
BM25算法是一种常见用来做相关度打分的公式,思路比较简单,主要就是计算一个query里面所有词和文档的相关度,然后在把分数做累加操作,而每个词的相关度分数主要还是受到tf/idf的影响。
学到老
2020-01-13
4.8K0
MySQL 中对字符串进行操作:字符串截取
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
学到老
2019-10-25
2K0
Pattern matching: The gestalt approach一种序列的文本相似度方法
0.6153846153846154 通过上面的案例可以看出本算法侧重的,是序列的相似性。会忽视主体的词义、语义。
学到老
2019-03-11
1.3K0
R分词继续,\"不|知道|你在|说|什么\"分词添加新词
单机:R语言+Rwordseg分词包 (建议数据量<1G) 分布式:Hadoop+Smallseg库 词库:Sougou词库,Sougou输入法官网可下载 这里只先介绍单机的实现: 1、R语言:专门用于统计分析、绘图的语言 2、Rwordseg分词包:引用了@ansj开发的ansj中文分词工具,基于中科院的ictclas中文分词算法,无论是准确度还是运行效率都超过了rmmseg4j。
学到老
2019-02-28
7470
python过滤敏感词记录
关于敏感词过滤可以看成是一种文本反垃圾算法,例如 题目:敏感词文本文件 filtered_words.txt,当用户输入敏感词语,则用 星号 * 替换,例如当用户输入「北京是个好城市」,则变成「**是个好城市」 代码:
学到老
2019-02-26
2.7K0
mongodb数据结构与基本操作增删改查整理(二)
例如:所有用户的信息存放在users集合中,每个用户的信息为一个user文档,插入数据:
学到老
2019-02-14
1.8K0
go println与printf区别
Printf : 只可以打印出格式化的字符串,可以输出字符串类型的变量,不可以输出整形变量和整形,
学到老
2019-02-14
4550
mongodb11天之屠龙宝刀(八)聚合函数与管道:sql与mongodb聚合函数对比
mongodb11天之屠龙宝刀(八)聚合函数与管道:sql与mongodb聚合函数对比 原文连接:直通车
学到老
2019-02-14
1.6K0
tensorflow载入数据的三种方式 之 TF生成数据的方法
正常情况下,使用tf.initialize_all_variables()初始化变量,在完全构建好模型并加载之后才运行这个操作。生成数据的主要方法如下 1)如果需要利用已经初始化的参数给其他变量赋值 TF的变量有个initialized_value()属性,就是初始化的值,使用方法如下:
学到老
2019-02-14
8550
mongodb11天之屠龙宝刀(九)js函数入门:MongoDB基于js的数据类型修改
mongodb11天之屠龙宝刀(九)js函数入门:MongoDB基于js的数据类型修改 原文连接:直通车 Mongodb并不提供Alter table这样的语句或者工具修改字段类型,只能写程序转。
学到老
2019-02-14
1.4K0
Python多元线性回归-sklearn.linear_model,并对其预测结果评估
相应的参数说明。 fit_intercept: 布尔型,默认为true 说明:是否对训练数据进行中心化。如果该变量为false,则表明输入的数据已经进行了中心化,在下面的过程里不进行中心化处理;否则,对输入的训练数据进行中心化处理 normalize布尔型,默认为false 说明:是否对数据进行标准化处理 copy_X 布尔型,默认为true 说明:是否对X复制,如果选择false,则直接对原数据进行覆盖。(即经过中心化,标准化后,是否把新数据覆盖到原数据上) **n_jobs整型, 默认为1 说明:计算时设置的任务个数(number of jobs)。如果选择-1则代表使用所有的CPU。这一参数的对于目标个数>1(n_targets>1)且足够大规模的问题有加速作用。 返回值:
学到老
2019-02-14
1.6K0
python—结巴分词的原理理解,Hmm中的转移概率矩阵和混淆矩阵。
结巴分词的准备工作 开发者首先根据大量的人民日报训练了得到了字典库、和Hmm中的转移概率矩阵和混淆矩阵。 1. 加载字典, 生成trie树 为什么要加载字典树呢,是因为如果没有字典树,那么扫描将会是一个庞大的工程,有了字典树就可以在该分支上扫描。例如扫描“中国人民银行”(正向最大匹配)先扫描6个字的字典库,找到了“中国人民银行”,然后再去掉一个字变成了“中国人民银”,假如没有字典树的话,就会把所有五个字的字典库搜索一遍。但是现在就不会了,只要把“中国人民”和“中国人民银行”之间的节点搜索一遍就行了,大大的节省了时间。有句话叫以空间换时间,最适合用来表达这个意思。 2. 给定待分词的句子, 使用正则获取连续的 中文字符和英文字符, 切分成 短语列表, 对每个短语使用DAG(查字典)和动态规划, 得到最大概率路径, 对DAG中那些没有在字典中查到的字, 组合成一个新的片段短语, 使用HMM模型进行分词, 也就是作者说的识别新词, 即识别字典外的新词. 本人理解:先进行扫描分词,然后切成很多的句子,每个句子再利用动态规划找出最大概率路径(消除歧义)。 (1) 关于有向无环图(见下图):有方向没有回路。
学到老
2019-02-14
1.4K0
tensorflow(一)windows 10 64位安装tensorflow1.4与基本概念解读tf.global_variables_initializer
目前用了tensorflow、deeplearning4j两个深度学习框架, tensorflow 之前一直支持到python 3.5,目前以更新到3.6,故安装最新版体验使用。 慢慢长征路:安装过程如下 WIN10: anaconda3.5: PYTHON3.6: tensorflow1.4:
学到老
2019-02-14
7680
tensorflow(一)windows 10 python3.6安装tensorflow1.4与基本概念解读
目前用了tensorflow、deeplearning4j两个深度学习框架, tensorflow 之前一直支持到python 3.5,目前以更新到3.6,故安装最新版体验使用。 慢慢长征路:安装过程如下 WIN10: anaconda3.5: PYTHON3.6: tensorflow1.4:
学到老
2019-02-14
1.7K0
tensorflow之tf.placeholder 与 tf.Variable区别对比
Variable:主要是用于训练变量之类的。比如我们经常使用的网络权重,偏置。 值得注意的是Variable在声明是必须赋予初始值。在训练过程中该值很可能会进行不断的加减操作变化。 名称的真实含义,在于变量,也即在真实训练时,其值是会改变的,自然事先需要指定初始值; placeholder:也是用于存储数据,但是主要用于feed_dict的配合,接收输入数据用于训练模型等。placeholder值在训练过程中会不断地被赋予新的值,用于批训练,基本上其值是不会轻易进行加减操作。
学到老
2019-02-14
9530
python 中numpy基本方法总结可以类推tensorflow
一、数组方法 创建数组:arange()创建一维数组;array()创建一维或多维数组,其参数是类似于数组的对象,如列表等 反过来转换则可以使用numpy.ndarray.tolist()函数,如a.tolist() 创建数组:np.zeros((2,3)),或者np.ones((2,3)),参数是一个元组分别表示行数和列数 对应元素相乘,a * b,得到一个新的矩阵,形状要一致;但是允许a是向量而b是矩阵,a的列数必须等于b的列数,a与每个行向量对应元素相乘得到行向量。 + - / 与
学到老
2019-02-14
1.2K0
神经网络中的学习速率如何理解
实际当我们在计算线性回归模型的时候,会发现特征变量x,不同维度之间的取值范围差异很大。这就造成了我们在使用梯度下降算法的时候,由于维度之间的差异使得Jθ的值收敛的很慢。
学到老
2019-02-14
9590
计算机常用算法对照表整理
第一部分、计算机算法常用术语中英对照 Data Structures 基本数据结构 Dictionaries 字典 Priority Queues 堆 Graph Data Structures 图 Set Data Structures 集合 Kd-Trees 线段树 Numerical Problems 数值问题 Solving Linear Equations 线性方程组 Bandwidth Reduction 带宽压缩 Matrix Multiplication 矩阵乘法 Determinants and Permanents 行列式 Constrained and Unconstrained Optimization 最值问题 Linear Programming 线性规划 Random Number Generation 随机数生成 Factoring and Primality Testing 因子分解/质数判定 Arbitrary Precision Arithmetic 高精度计算 Knapsack Problem 背包问题 Discrete Fourier Transform 离散Fourier变换 Combinatorial Problems 组合问题 Sorting 排序 Searching 查找 Median and Selection 中位数 Generating Permutations 排列生成 Generating Subsets 子集生成 Generating Partitions 划分生成 Generating Graphs 图的生成 Calendrical Calculations 日期 Job Scheduling 工程安排 Satisfiability 可满足性 Graph Problems – polynomial 图论-多项式算法 Connected Components 连通分支 Topological Sorting 拓扑排序 Minimum Spanning Tree 最小生成树 Shortest Path 最短路径 Transitive Closure and Reduction 传递闭包 Matching 匹配 Eulerian Cycle / Chinese Postman Euler回路/中国邮路 Edge and Vertex Connectivity 割边/割点 Network Flow 网络流 Drawing Graphs Nicely 图的描绘 Drawing Trees 树的描绘 Planarity Detection and Embedding 平面性检测和嵌入 Graph Problems – hard 图论-NP问题 Clique 最大团 Independent Set 独立集 Vertex Cover 点覆盖 Traveling Salesman Problem 旅行商问题 Hamiltonian Cycle Hamilton回路 Graph Partition 图的划分 Vertex Coloring 点染色 Edge Coloring 边染色 Graph Isomorphism 同构 Steiner Tree Steiner树 Feedback Edge/Vertex Set 最大无环子图 Computational Geometry 计算几何 Convex Hull 凸包 Triangulation 三角剖分 Voronoi Diagrams Voronoi图 Nearest Neighbor Search 最近点对查询 Range Search 范围查询 Point Location 位置查询 Intersection Detection 碰撞测试 Bin Packing 装箱问题 Medial-Axis Transformation 中轴变换 Polygon Partitioning 多边形分割 Simplifying Polygons 多边形化简 Shape Similarity 相似多边形 Motion Planning 运动规划 Maintaining Line Arrangements 平面分割 Minkowski Sum Minkowski和 Set and String Problems 集合与串的问题
学到老
2019-02-14
1.7K0
DOC2VEC:所涉及的参数以及WORD2VEC所涉及的参数
DOC2VEC:所涉及的参数 class gensim.models.doc2vec.Doc2Vec(documents=None, dm_mean=None, dm=1, dbow_words=0, dm_concat=0, dm_tag_count=1, docvecs=None, docvecs_mapfile=None, comment=None, trim_rule=None, **kwargs) Bases: gensim.models.word2vec.Word2Vec Class for training, using and evaluating neural networks described in http://arxiv.org/pdf/1405.4053v2.pdf Initialize the model from an iterable of documents. Each document is a TaggedDocument object that will be used for training. The documents iterable can be simply a list of TaggedDocument elements, but for larger corpora, consider an iterable that streams the documents directly from disk/network. If you don’t supply documents, the model is left uninitialized – use if you plan to initialize it in some other way. dm defines the training algorithm. By default (dm=1), ‘distributed memory’ (PV-DM) is used. Otherwise, distributed bag of words (PV-DBOW) is employed. Dm:训练算法:默认为1,指DM;dm=0,则使用DBOW。 size is the dimensionality of the feature vectors. · size:是指特征向量的维度,默认为100。大的size需要更多的训练数据,但是效果会更好. 推荐值为几十到几百。 window is the maximum distance between the predicted word and context words used for prediction within a document. window:窗口大小,表示当前词与预测词在一个句子中的最大距离是多少。 alpha is the initial learning rate (will linearly drop to min_alpha as training progresses). alpha: 是初始的学习速率,在训练过程中会线性地递减到min_alpha。
学到老
2019-02-14
2K0
python 聚类分析实战案例:K-means算法(原理源码)
关于步骤:参考之前的博客 关于代码与数据:暂时整理代码如下:后期会附上github地址,上传原始数据与代码完整版,
学到老
2019-02-14
1.5K0
点击加载更多
社区活动
Python精品学习库
代码在线跑,知识轻松学
热点技术征文第五期
新风口Sora来袭,普通人该如何把握机会?
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·干货材料·成员作品·最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档