Duncan's Blog

从部署到实践，即刻拥有你的专属龙虾助手

OpenClaw开发者专区🦞🦞🦞

自行/邀约他人一键搬运博客，享价值百万资源包

腾讯云自媒体同步曝光计划

往期视频·干货材料·成员作品 最新动态

腾讯技术创作特训营知识专栏

新邀入驻腾讯云开发者社区，福利多多！

Flink笔记
1.数据集类型
有界数据集：具有时间边界，在处理过程中数据一定会在某个时间范围内起始和结束。提供DataSet API
无界数据集： 数据从一开始就一直持续产生的。提供DataStream API
2.Flink编程接口
Flink SQL
Table API：在内存中的DataSet和DataStream基础上加上Schema信息，将数据类型抽象成表结构
DataStream API和DataSet API
Stateful Stream Process API
3.程序结构
设定运行环境

Flink学习记录

Step2:sudo apt-get install openmpi-bin</br>

python-MPI安装命令

1.1 spark.read.json() / spark.read.parquet() 或者 spark.read.load(path,format=”parquet/json”)

pyspark记录

近日实验中需要用到小顶堆,记录下来,便于日后参考.

123456789101112131415161718192021	import heapq# 定义一个小顶堆class MinHeap(object):    # 允许传入tuple,按照第二个元素比较    def __init__(self, initial=None, key=lambda x:x[1]):        self.key = key        if initial:            self._data = [(key

python构建小顶堆

使用场景对比：set 存储单个大文本非结构化数据，hset 则存储结构化数据，一个 hash 存储一条数据，一个 filed 则存储 一条数据中的一个属性，value 则是属性对应的值。

Redis学习

使用豆瓣源
 sudo pip install #package -i http://pypi.douban.com.simple —trusted-host pypi.douban.com

pip安装包更换pypi源

近日,论文中涉及到NP-Hard问题,写下笔记对以上问题进行区分.
 P问题:在多项式时间内可以求解的问题.
 NP问题:在多项时间内不能求解,在多项式时间内可以验证的问题.
 NP-Hard问题:所有的NP问题在多项式时间内可以归约到该问题,该问题为NP-Hard问题.
 NP-Complete问题:一个问题即是NP-Hard问题,同时又是NP问题.

P问题/NP问题/NP-Hard问题/NP-Complete问题

安装mpi4py所需要的依赖包(python2.7版本/Cpython/Openmpi)
1.源码包安装Python2.7版本


在非root用户下安装mpi4py

这是一个基本概念,且很重要,记录一下.
 树的定义:用图的知识来表示即为,无环的连通图或者边数等于顶点数减1.
 
12345678910111213141516171819202122232425262728293031323334353637383940414243444546474849505152535455565758596061626364656667686970	package questionCheckisTree;import java.util.Scanner;/** * Created

判断无向图是否是一颗树

neo-4j由两部分组成:relationship,label和property,label或者relationship中包含property,label与label之间形成关系.

neo4j官方开发文档阅读记录

1.连接数据库(三种方式相等)

123	graph_1 = Graph()graph_2 = Graph(host="localhost")graph_3 = Graph("http://localhost:7474/db/data")

2.事务操作
a)直接返回结果

1	graph.data("MATCH (a:Person) RETURN a.name, a.born LIMIT 4")

b)以pandas格式返回结果

1	DataFrame(graph.data("MATCH (a:Pers

python与neo-4j交互(对py2neo包做的笔记)

基础版：https://tech.meituan.com/2016/04/29/spark-tuning-basic.html

Spark笔记

Scala笔记
1.四种操作符的区别和联系
:: 该方法成为cons，表时构造，向队列头部加入元素。x::list表示向list头部加入元素。（列表构造：
 12::1::2::"bar"::"foo" 表示List[Any]= (2,1,2,bar,foo) 
:+和+:表示分别在尾部加入元素和在头部加入元素。
 
++ 表示连接两个集合
 
::: 该方法只能用于连接两个list类型的集合
 
2.日期操作(经常用到，所以记录下)
获取今天0点时间戳
 12val dateFormat = new Si

Scala笔记

2.1数据清洗：填写缺失值、光滑噪声数据，识别或删除离群点，并解决不一致性来“清理”数据

数据挖掘整理

1）用途：评价特征或变量的预测能力。类似的指标还有信息增益    、增益率和基尼系数等

IV值和WOE值记录

example: 一个班有学生id，成绩，班级，现在将学生根据班级按照成绩排名。(partition by)

Hive SQL 学习

用bootstrap自助法生成m个训练集，对每个训练集构造一颗决策树，在节点找特征进行分裂的时候，并不是对所有特征找到使得指标（如信息增益）最大的，而是在特征中随机抽取一部分特征，在抽取到的特征中找到最优解，进行分裂。模型预测阶段就是bagging策略，分类投票，回归取均值。

模型记录

网格搜索通过查找搜索范围内的所有的点，来确定最优值。它返回目标函数的最大值或损失函数的最小值。给出较大的搜索范围，以及较小的步长，网格搜索是一定可以找到全局最大值或最小值的。 

超参的搜索方法整理

算法分类
1.基于内容 / 用户的推荐
更多依赖相似性计算然后推荐
基于用户信息进行推荐
基于内容 、物品的信息进行推荐
2.协同过滤
需要通过用户行为来计算用户或物品见的相关性
基于用户的协同推荐: 以人为本
 | 小张 | 产品经理、Google、增长   |
| —— | ———————————— |
| 小明 | 产品经理、Google、比特币 |
| 小吴 | 比特币、区块链、以太币   |
 这是一个用户关注内容的列表，显然在这个列表中，小张和小明关注的内容更为相似，那么可以给小张推荐比特币。

文章

问答

视频

教程

学习中心

腾讯云实验室

直播

竞赛

腾讯云代码分析专区

腾讯iOA零信任安全管理系统专区

腾讯云架构师技术同盟交流圈

腾讯云数据库专区

腾讯云智能顾问专区

腾讯云原生专区

腾讯混元专区

腾讯云TCE专区

腾讯云Lighthouse专区

腾讯云HAI专区

腾讯云Edgeone专区

腾讯云存储专区

腾讯云智能专区

腾讯轻联专区 

腾讯云开发专区

TAPD专区

腾讯轻量云游戏服专区

EdgeOne AI 安全实战专区

腾讯云最具价值专家

腾讯云架构师技术同盟

腾讯云创作之星

腾讯云开发者先锋

腾讯云代码助手

云原生构建

TAPD 敏捷项目管理

Cloud Studio

SDK中心

API中心

命令行工具

涵盖代码开发、场景应用、自动测试全流程，助你从零构建专属AI助手

一站式MCP教程库，解锁AI应用新玩法

聚焦“写作效率、视觉美观与运行性能”三方面进行全面升级，为您提供更高效、稳定的创作环境

社区富文本&Markdown编辑器全新改版上线，欢迎大家体验!

诚挚邀请您参与本次调研，分享您的真实使用感受与建议。您的反馈至关重要，感谢您的支持与参与！

社区新版编辑器体验调研

腾讯云开发者社区推出了Duncan's Blog专栏，为你提供了Duncan's Blog的相关文章，致力于帮助开发者快速成长与发展。

Duncan's Blog

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐