一、大数据技术基础 1、linux操作基础 linux系统简介与安装 linux常用命令–文件操作 linux常用命令–用户管理与权限 linux常用命令–系统管理 linux常用命令–免密登陆配置与网络管理 linux上常用软件安装 linux本地yum源配置及yum软件安装 linux防火墙配置 linux高级文本处理命令cut、sed、awk linux定时任务crontab 2、shell编程 shell编程–基本语法 shell编程–流程控制 shell编程–函数 shell编程–综合案例–自
python是一门脚本语言,运行时由python虚拟机解释执行。当我们使用python设计好算法给第三方使用时只能提供源码,任何运行我们算法的人都可以看到源码以及对应的算法思路。因此,需要一定手动保护源码。
近年来大数据BigData、人工智能AI、物联网Iot等行业发展迅猛,很多人都想要从事大数据技术开发工作,但是,请问要怎么做,路线是什么?从哪里开始学?学哪些?这是一个大问题。对于我自己来说,最近也在学一些大数据开发相关的技术,所以之前整理了一份《大数据技术学习路线》,希望对你有所帮助。
花下猫语:常见的源码保护手段有四种,即发行 pyc 文件、代码混淆、打包成二进制文件以及使用 Cython,这些方法各有优点,但缺点也不少。前面我分享了一篇文章,对四种手段作了细致的对比分析,今天要继续分享该系列的第二篇。本文提出了一种新的源码保护手段,很有启发性。
我们都使用过主流的搜索引擎,谷歌、 bing,当然还有搜狗、百度之类。当你搜索某一关键词时,它会贴心在下拉框补全一些热门关键词,像下图这样:
📷 向AI转型的程序员都关注了这个号👇👇👇 机器学习AI算法工程 公众号:datayx 此项目可监控近千家中国企业的官方网站的新闻动态,如有更新,系统能在最短2分钟之内通过邮件发送更新的标题和链接。更新的信息流也可通过浏览器查看。监控的公司和站点可以添加删除。 原理:定期抓取网站html, 使用difflib比对新旧页面源码,发现增加的部分,提取url和text,过滤筛选,保存MySQL数据库。定期把更新的url和text,通过邮件发送给订阅者。 全部代码 获取方式: 关注微信公众号 datayx 然
向AI转型的程序员都关注了这个号👇👇👇 机器学习AI算法工程 公众号:datayx 。 。 。 。 。 。 。 全部 代码 ,视频,数据集 获取方式: 关注微信公众号 datayx 然后回复 唐宇迪 即可获取。 机器学习算法AI大数据技术 搜索公众号添加: datanlp 长按图片,识别二维码 ---- 阅读过本文的人还看了以下文章: TensorFlow 2.0深度学习案例实战 基于40万表格数据集TableBank,用MaskRCNN做表格检测 《基于深度学习的自然
大家好,我是架构君,一个会写代码吟诗的架构师。今天说一说车牌号识别 python + opencv「建议收藏」,希望能够帮助大家进步!!!
向AI转型的程序员都关注了这个号👇👇👇 机器学习AI算法工程 公众号:datayx 所有论文 包括已经录制完成和之后将要介绍的论文。选取的原则是10年内深度学习里有影响力文章(必读文章),或者近期比较有意思的文章。当然这十年里重要的工作太多了,不可能一一过一遍。在选取的时候我会偏向一些之前 直播课 中没讲到过的。 总论文数 67,录制完成数 32 全部 代码 ,预训练模型 获取方式: 关注微信公众号 datayx 然后回复 论文 即可获取。 机器学习算法AI大数据技术 搜索公众号添加: d
《Python程序设计(第3版)》,(ISBN:978-7-302-55083-9),董付国,清华大学出版社,2020年6月第1次印刷,2021年1月第6次印刷,山东省一流本科课程“Python应用开发”配套教材,清华大学出版社2020年度畅销图书(本书第二版为2019、2020年度畅销图书)
自动驾驶技术正逐渐成为现实,而Autoware是一个开源的自动驾驶软件框架,旨在为开发人员提供一个完整的解决方案。本文将对Autoware的源码进行剖析,并介绍如何进行实际的开发实践。
我简单的绘制了一下排序算法的分类,蓝色字体的排序算法是我们用python3实现的,也是比较常用的排序算法。
向AI转型的程序员都关注了这个号👇👇👇 机器学习AI算法工程 公众号:datayx 安装依赖 pip install requests 使用方法 浏览器打开:https://order.jd.com/center/list.action 没登录就登录 F12 控制台 console 栏输入 console.log(_JdJrTdRiskFpInfo, _JdEid) 参数依次对应: _JdJrTdRiskFpInfo => self._JdJrTdRiskFpInfo _JdEid => self.
📷 向AI转型的程序员都关注了这个号👇👇👇 机器学习AI算法工程 公众号:datayx 期研究了一下以图搜图这个炫酷的东西。百度和谷歌都有提供以图搜图的功能,有兴趣可以找一下。当然,不是很深入。深入的话,得运用到深度学习这货。Python深度学习当然不在话下。 这个功能最核心的东西就是怎么让电脑识别图片。 这个问题也是困扰了我,在偶然的机会,看到哈希感知算法。这个分两种,一种是基本的均值哈希感知算法(dHash),一种是余弦变换哈希感知算法(pHash)。dHash是我自己命名的,为了和pHash区分。
向AI转型的程序员都关注了这个号👇👇👇 机器学习AI算法工程 公众号:datayx 在自然语言处理领域中,预训练语言模型(Pretrained Language Models)已成为非常重要的基础技术,本仓库主要收集目前网上公开的一些高质量中文预训练模型。 NLU系列 BERT RoBERTa ALBERT NEZHA XLNET MacBERT WoBERT ELECTRA ZEN ERNIE RoFormer StructBERT Lattice-BERT Mengzi-BER
📷 向AI转型的程序员都关注了这个号👇👇👇 机器学习AI算法工程 公众号:datayx 最近遇到一个问题,如何读取仪表中的指针指向的刻度 📷 解决方法有多种,比如,方案一:模板匹配+边缘检测+霍夫直线检测,方案二:神将网络(CNN)目标定位等, 其中CNN就有点麻烦了,需要一定数量的训练样本,太麻烦,而方案一太普通,最后我采用了方案三, 方案三:模板匹配+k-means+直线拟合 具体做法如下: 首先说一下模板匹配,它是OpenCV自带的一个算法,可以根据一个模板图到目标图上去寻找对应位置,如果模板找
向AI转型的程序员都关注了这个号👇👇👇 机器学习AI算法工程 公众号:datayx nerpy实现了BertSoftmax、BertCrf、BertSpan等多种命名实体识别模型,并在标准数据集上比较了各模型的效果。 https://github.com/shibing624/nerpy Evaluation 说明: 结果值均使用F1 结果均只用该数据集的train训练,在test上评估得到的表现,没用外部数据 shibing624/bert4ner-base-chinese模型达到同级别参数量SOT
📷 向AI转型的程序员都关注了这个号👇👇👇 机器学习AI算法工程 公众号:datayx 之前只用过单线程处理,加载模型进行测试,运行时间上也可以接受。但是现在需要处理比较大量的数据,如果进行线性处理,可能测试一次就花10个小时,而且还不知道结果怎么样,所以多线程就必须使用上了。有关线程部分主要参考:https://junyiseo.com/python/211.html 1 多线程 多线程类似于同时执行多个不同程序,线程在执行过程中与进程还是有区别的。每个独立的进程有一个程序运行的入口、顺序执行序列和程
目前为止C语言的部分快要结束了,还差最后一个C语言和Python交互了,今天就讲这个。C语言和Python交互方法多了去了,有Python调用C语言,也有C语言调用Python,一般情况下Python调用C语言比较常见,毕竟Python慢,调用C语言加快速度,提高性能,这里重点讲Python调用C语言。
📷 向AI转型的程序员都关注了这个号👇👇👇 机器学习AI算法工程 公众号:datayx 实现思路 📷 数据处理 原始数据来源于 https://data.vision.ee.ethz.ch/cvl/rrothe/imdb-wiki/static/wiki_crop.tar 原始数据集包含的图片数量很多,我从中筛选了大约10000张图片(筛选条件为:由OpenCV识别出的face数目为1、性别已知、男女各约5000张) 图片尺寸统一为 100x100,文件名格式统一为 编号-年龄-性别.png,其中性别1
向AI转型的程序员都关注了这个号👇👇👇 火爆全网的小游戏羊了个羊到底藏了什么套路?几乎所有人上班下班都在玩,可通关率据说还不到1%。 其实这个游戏和你的策略或技术没啥关系,完全是算法和运气在折磨你。十年前我们玩空当接龙的时候,所有牌都是明牌,理论上可以算出最优解;但羊了个羊不一样,策略再好也不能稳赢,因为你根本不知道一张牌底下藏着什么牌,这和斗地主还不一样,斗地主的牌堆是固定的,但游戏里的牌堆可以被算法改变。 知乎上有人算出了通关概率,游戏一共有14种图案,即使按照逐渐消层的最优解,底下的牌也有200多万
NetworKit是一款针对高性能网络安全分析的开源工具,该工具旨在帮助广大安全研究人员分析具备数千到数十亿条边界的大型网络。为了实现这个目标,该工具实现了非常高效的图形算法,其中许多算法是并行的,以利用多核架构来计算网络分析的标准度量。NetworKit专注于功能方面的可扩展性和全面性,而NetworKit也是一种算法工程的试验平台,其中包含了很多最新发表的处于研究中的新算法。
📷 向AI转型的程序员都关注了这个号👇👇👇 机器学习AI算法工程 公众号:datayx 基于Flask RESTful api的图像特征检索方案,api传入url/base64即可在毫秒内返回数据库匹配结果,主要用于图像去重,后续拓展使用范围。 1. 项目说明: 本项目基于开源框架PyRetri进行二次开发,同时结合facebook开源项目Facebook AI Similarity Search,设计出基于Flask的RESTful api接口,目的是为了解决以下几个场景问题: 1)本地已经存储大规模
向AI转型的程序员都关注了这个号👇👇👇 机器学习AI算法工程 公众号:datayx 监督部分 第二章 感知机: 博客:统计学习方法|感知机原理剖析及实现 实现:perceptron/perceptron_dichotomy.py 第三章 K近邻: 博客:统计学习方法|K近邻原理剖析及实现 实现:KNN/KNN.py 第四章 朴素贝叶斯: 博客:统计学习方法|朴素贝叶斯原理剖析及实现 实现:NaiveBayes/NaiveBayes.py 第五章 决策树: 博客:统计学习方法|决策树原理剖析及实现 实现:
Open3D是一个开源库,支持快速开发和处理3D数据。Open3D在c++和Python中公开了一组精心选择的数据结构和算法。后端是高度优化的,并且是为并行化而设置的。
对于算法书买了一本又一本却没一本读完超过 10%,Leetcode 刷题从来没坚持超过 3 天的我来说,算法能力真的是渣渣。但是,今天决定写一篇跟算法有关的文章。起因是读了吴师兄的文章《扫雷与算法:如何随机化的布雷(二)之洗牌算法》。因为扫雷这个游戏我是写过的,具体见:《Python:游戏:扫雷》。
向AI转型的程序员都关注了这个号👇👇👇 机器学习AI算法工程 公众号:datayx 中文微博情感分类语料库 "情感分析"是我本科的毕业设计, 也是我入门并爱上NLP的项目hhh, 当时网上相关语料库的质量都太低了, 索性就自己写了个爬虫, 一边标注一边爬, 现在就把它发出来供大家交流。因为是自己的项目,所以标注是相当认真的,还请了朋友帮忙校验,过滤掉了广告/太短/太长/表意不明等语料,语料质量是绝对可以保证的 带情感标注的微博语料数量: 10000(train.txt)+500(test.txt)
向AI转型的程序员都关注了这个号👇👇👇 机器学习AI算法工程 公众号:datayx 在构建模型时,调参是极为重要的一个步骤,因为只有选择最佳的参数才能构建一个最优的模型。但是应该如何确定参数的值呢?所以这里记录一下选择参数的方法,以便后期复习以及分享。 (除了贝叶斯优化等方法)其它简单的验证有两种方法:1、通过经常使用某个模型的经验和高超的数学知识。2、通过交叉验证的方法,逐个来验证。 很显然我是属于后者所以我需要在这里记录一下 sklearn 的 cross_val_score: 我使用是cross_
向AI转型的程序员都关注了这个号👇👇👇 机器学习AI算法工程 公众号:datayx 项目描述 本项目是一个带有超级详细中文注释的基于GPT2模型的新闻标题生成项目。 本项目参考了GPT2-Chinese、GPT2-chitchat、CDial-GPT、GPT2等多个GPT2开源项目,并根据自己的理解,将代码进行重构,添加详细注释,希望可以帮助到有需要的人。 本项目使用HuggingFace的transformers实现GPT2模型代码编写、训练及测试。 本项目通过Flask框架搭建了一个Web服务,将新
📷 向AI转型的程序员都关注了这个号👇👇👇 机器学习AI算法工程 公众号:datayx "情感分析"是我本科的毕业设计, 也是我入门并爱上NLP的项目hhh, 当时网上相关语料库的质量都太低了, 索性就自己写了个爬虫, 一边标注一边爬, 现在就把它发出来供大家交流。因为是自己的项目,所以标注是相当认真的,还请了朋友帮忙校验,过滤掉了广告/太短/太长/表意不明等语料,语料质量是绝对可以保证的 带情感标注的微博语料数量: 10000(train.txt)+500(test.txt) 数据格式 文档的每一行代
本文是《人脸识别完整项目实战》系列博文第3部分:程序设计篇(Python版),第1节《Python实时视频采集程序设计》,本章内容系统介绍:基于Python+opencv如何实现实时视频采集。
📷 向AI转型的程序员都关注了这个号👇👇👇 机器学习AI算法工程 公众号:datayx 上采样与上池化 图示理解,使用三张图进行说明: 📷 图(a)表示UnPooling的过程,特点是在Maxpooling的时候保留最大值的位置信息,之后在unPooling阶段使用该信息扩充Feature Map,除最大值位置以外,其余补0。 Unpooling是在CNN中常用的来表示max pooling的逆操作。 鉴于max pooling不可逆,因此使用近似的方式来反转得到max pooling操作之前的原始情
大家好,我是Python进阶者。 是不是觉得很诧异?明明上周刚发布了这篇:分享一道用Python基础+蒙特卡洛算法实现排列组合的题目(附源码),今天又来一篇,名曰番外篇!其实今天是想给大家分享【🌑(这是月亮的背面)】大佬的解法,拍案叫绝! 📷 前情回顾 前几天在才哥交流群里,有个叫【Rick Xiang】的粉丝在Python交流群里问了一道关于排列组合的问题,初步一看觉得很简单,实际上确实是有难度的。 题目是:一个列表中有随机15个数,没有重复值。从列表里面任意选5个数,如何选出来
向AI转型的程序员都关注了这个号👇👇👇 机器学习AI算法工程 公众号:datayx 精度与速度远超 YOLOv5 和 YOLOX 的新框架 YOLOv6关键技术介绍 YOLOv6 主要在 Backbone、Neck、Head 以及训练策略等方面进行了诸多的改进: 我们统一设计了更高效的 Backbone 和 Neck :受到硬件感知神经网络设计思想的启发,基于 RepVGG style[4] 设计了可重参数化、更高效的骨干网络 EfficientRep Backbone 和 Rep-PAN Neck。
下面是一个用HS256生成JWT的代码例子的结构 HMACSHA256(base64UrlEncode(header) + “.” + base64UrlEncode(payload),secret)
车牌的检测和识别的应用非常广泛,比如交通违章车牌追踪,小区或地下车库门禁。在对车牌识别和检测的过程中,因为车牌往往是规整的矩形,长宽比相对固定,色调纹理相对固定,常用的方法有:基于形状、基于色调、基于纹理、基于文字特征等方法,近年来随着深度学习的发展也会使用目标检测的一些深度学习方法。该项目主要的流程如下图所示:
导读:本文介绍了集成学习中比较具有代表性的方法,如Boosting、Bagging等。而XGBoost是集成学习中的佼佼者,目前,一些主流的互联网公司如腾讯、阿里巴巴等都已将XGBoost应用到其业务中。本文对XGBoost的历史演化、应用场景及其优良特性进行了阐述,为入门XGBoost并进一步学习打下基础。
向AI转型的程序员都关注了这个号👇👇👇 机器学习AI算法工程 公众号:datayx 一、特征工程 简单说,特征工程是能够将数据像艺术一样展现的技术。因为好的特征工程很好的混合了专业领域知识、直觉和基本的数学能力; 本质上说,呈现给算法的数据应该能拥有基本数据的相关结构或属性 。当你做特征工程时,其实是将数据属性转换为数据特征的过程,属性代表了数据的所有维度,在数据建模时,如果对原始数据的所有属性进行学习,并不能很好的找到数据的潜在趋势,而通过特征工程对你的数据进行预处理的话,你的算法模型能够减少受到噪声
📷 向AI转型的程序员都关注了这个号👇👇👇 机器学习AI算法工程 公众号:datayx doccano是一个开源文本标注工具。它提供了文本分类,序列标注和序列到序列的标注功能。因此,您可以为情绪分析,命名实体识别,文本摘要等创建标记数据。只需创建项目,上传数据并开始标注。 总结下来就3步,上传数据,标注,下载带有标签的数据。 官网:http://doccano.herokuapp.com/ 📷 📷 命名实体识别 第一个演示是序列标记任务之一,命名实体识别。您只需选择文本跨度并对其进行标注即可。由于doc
向AI转型的程序员都关注了这个号👇👇👇 机器学习AI算法工程 公众号:datayx DBnet文本检测网络加入多分类,可以实现模型很小又能够区分类别的功能,然后可以根据检测框的标签快速提取目标字段,在端侧部署的话就能达到非常高的精度和效率。 1.标注数据 标注方法和标注目标检测的数据一样,一个框加一个标签 pip install labelImg ==1.8.6 安装完毕后,键入命令: labelImg 或者下载工具 labelImg.exe链接:https://pan.baidu.com/s/14
因为我这里只是判断 【人没有带安全帽】、【人有带安全帽】、【人体】 3个类别 ,基于 data/coco128.yaml 文件,创建自己的数据集配置文件 custom_data.yaml
本项目是利用YOLOv4进行口罩佩戴检测,使用PyTorch实现。虽然现在国内疫情基本得到有效遏制,但防控仍不可过于松懈,在一些公共场合佩戴口罩还是必不可少的。基于此,自己做了该项目,后续打算继续改进,争取将其运行到边缘设备上。希望本项目能给疫情常态化防控出一份力,也希望真正的新年早日到来。
向AI转型的程序员都关注了这个号👇👇👇 机器学习AI算法工程 公众号:datayx 核酸检测报告已经是疫情这些年很多人出行必备的材料,而且很多机关单位、政府部门都需要检查核酸报告才能让相关的人员进出场所。如果有一个模型能够快速的识别并提取核酸报告里的关键信息,则能很大程度上提升那些需要提交核酸报告的OA流程审核效率,提升企事业的服务效率。 1.标注数据 标注方法和标注目标检测的数据一样,一个框加一个标签 pip install labelImg ==1.8.6 安装完毕后,键入命令: labelImg
今天这篇文章主要是介绍:现在随着人工智能、大数据的普及,越来越多计算机领域需要应用到算法以及数据结构。今天在网上看到一个python写的经典算法的事例,推荐给大家。
📷 向AI转型的程序员都关注了这个号👇👇👇 机器学习AI算法工程 公众号:datayx 在大数据和人工智能技术加持下,不同行业各种新兴的风险控制手段也正在高速发展。但这些风险信息散落在互联网的海量资讯中,若能从中及时识别出风险事件并挖掘出潜在的风险特征,能够大幅提升识别和揭示风险的能力。而风险事件以文本的形式存在,需要采用自然语言理解模型实现风险事件的高精度智能识别,其本质是属于一个文本分类任务。 NLP(自然语言处理)作为人工智能领域皇冠上的“明珠”,其技术的科研创新一直精进不休。而文本分类在自然
向AI转型的程序员都关注了这个号👇👇👇 普通211硕士,方向是内燃机,现在研二,未来想换到自动驾驶,会matlab的编程计算,simulink有一定了解,目前想要深入学习,请问该如何提高自己,才能进去车企的自动驾驶团队,我知道可能我专业不太相符,但是较为喜欢自动驾驶和控制逻辑,请不吝赐教. 自动驾驶学习资料汇总 https://zhuanlan.zhihu.com/p/517710302 1. 课程资料 德国蒂宾根大学的自动驾驶课程 (Self-Driving Cars, lectureed by Pr
向AI转型的程序员都关注了这个号👇👇👇 1、手写交叉熵公式 2、为什么用交叉熵不用均方误差 1、均方误差作为损失函数,这时所构造出来的损失函数是非凸的,不容易求解,容易得到其局部最优解;而交叉熵的损失函数是凸函数; 2、均方误差作为损失函数,求导后,梯度与sigmoid的导数有关,会导致训练慢;而交叉熵的损失函数求导后,梯度就是一个差值,误差大的话更新的就快,误差小的话就更新的慢点。 3、说一下Adam优化的优化方式 Adam算法即自适应时刻估计方法(Adaptive
向AI转型的程序员都关注了这个号👇👇👇 机器学习AI算法工程 公众号:datayx 项目简介 本项目基于PaddlePaddle和EasyDL平台,以教务处和学工为一级用户,高校教师为二级用户,针对提升整体课堂教学质量为目的开发的一款实时课堂监测系统。 本项目主要监测课堂的出勤人数、学生的上课状态、教师的语速、情感,以及语言的用词方面。项目中语音的模型均采用EasyDL平台进行训练,调用在线API进行预测分析。而图像模型由于在线API无法达到实时性的要求,采用本地训练Paddle模型库中的模型并使用。
📷 向AI转型的程序员都关注了这个号👇👇👇 机器学习AI算法工程 公众号:datayx 目前支持蓝色标准车牌,黄色标准车牌,小型新能源车牌的车牌生成。 实际的车牌示例 实际的大型新能源车牌示例 📷 实际的小型新能源车牌示例 📷 生成的蓝色底牌车牌示例 📷 📷 生成的小型新能源车牌示例 📷 📷 全部代码 获取方式: 关注微信公众号 datayx 然后回复 车牌生成 即可获取。 程序结构说明 license_plate_elements.py: 车牌号元素,其中定义: 车牌号中,不同车牌位的取值范围; 不
向AI转型的程序员都关注了这个号👇👇👇 机器学习AI算法工程 公众号:datayx 小布助手是OPPO公司为欧加集团三品牌手机和IoT设备自研的语音助手,为用户提供了有趣、贴心、便捷的对话式服务。意图识别是对话系统中的一个核心任务,而对话短文本语义匹配是意图识别的主流算法方案之一。 训练数据 训练数据包含输入query-pair,以及对应的真值。初赛训练样本10万,复赛训练样本30万,这份数据主要用于参赛队伍训练模型,为确保数据的高质量,每一个样本的真值都有进行人工标注校验。每行为一个训练样本,由que
领取专属 10元无门槛券
手把手带您无忧上云