发布

AI智韵

专栏成员
144
文章
35798
阅读量
23
订阅数
Yolo11改进策略:Block改进|CBlock,Transformer式的卷积结构|即插即用
论文标题: SparseViT: Nonsemantics-Centered, Parameter-Efficient Image Manipulation Localization through Spare-Coding Transformer 论文链接: https://arxiv.org/pdf/2412.14598 官方GitHub: https://github.com/scu-zjz/SparseViT 、
AI浩
2025-03-04
320
分形生成模型
https://arxiv.org/pdf/2502.17437v1 模块化是计算机科学的基石,它将复杂功能抽象为原子构建模块。在本文中,我们通过将生成模型抽象为原子生成模块,引入了新一级的模块化。类似于数学中的分形,我们的方法通过递归调用原子生成模块,构建了一种新型生成模型,从而形成了自相似的分形架构,我们称之为分形生成模型。作为一个运行示例,我们使用自回归模型作为原子生成模块来实例化我们的分形框架,并在具有挑战性的逐像素图像生成任务上对其进行了检验,在似然估计和生成质量方面都表现出了强大的性能。我们希望这项工作能够开创生成建模的新范式,并为未来的研究提供肥沃的土壤。代码可在https://github.com/ITH14/fractalgen获取。
AI浩
2025-03-03
440
DeepSeek R1满血版测评
今天我用了三个版本的DeepSeek R1来回答同一个问题。三个版本分别:FB8、Q4量化、元宝满血版。大家可以评一评哪个回答更好。
AI浩
2025-02-26
1710
YOLOv12:以注意力为中心的实时目标检测器
长期以来,改进YOLO框架的网络架构一直是研究重点,但主要集中在基于CNN的改进上,尽管注意力机制已被证明在建模能力上具有显著优势。这是因为基于注意力的模型在速度上无法与基于CNN的模型相媲美。本文提出了一种以注意力为核心的YOLO框架——YOLOv12,它在保持与先前基于CNN模型相当速度的同时,充分利用了注意力机制的性能优势。
AI浩
2025-02-26
1690
大模型江湖的"封神榜":《哪吒2》角色映射下的AI众生相
当《哪吒2》的混天绫搅动三界风云时,人工智能领域也正上演着惊心动魄的"封神之战"。在这场技术革命的浪潮中,四大主流大模型展现出迥异的"人格特质",恰与电影中的经典角色形成镜像般的哲学映射。
AI浩
2025-02-20
1370
【大模型实战】 Ollama部署满血量化版的DeepSeek R1模型(671B)
选择ollama-linux-amd64.tgz文件,如果下载慢,可以将连接放到迅雷里面提升下载速度。
AI浩
2025-02-18
6551
【多模态大模型实战】 搭建DeepSeek Janus-Pro 7B 多模态模型,以及推理微调,推理后的模型融合
Janus-Pro是DeepSeek最新开源的多模态模型,是一种新颖的自回归框架,统一了多模态理解和生成。通过将视觉编码解耦为独立的路径,同时仍然使用单一的、统一的变压器架构进行处理,该框架解决了先前方法的局限性。这种解耦不仅缓解了视觉编码器在理解和生成中的角色冲突,还增强了框架的灵活性。Janus-Pro 超过了以前的统一模型,并且匹配或超过了特定任务模型的性能。
AI浩
2025-02-08
1.3K1
【Block总结】HWD,小波下采样,适用分类、分割、目标检测等任务|即插即用
Haar wavelet downsampling (HWD) 是一项针对语义分割的创新模块,旨在通过减少特征图的空间分辨率来提高深度卷积神经网络(DCNNs)的性能。该论文的主要贡献在于提出了一种新的下采样方法,能够在下采样阶段有效地减少信息损失。论文的详细信息如下:
AI浩
2025-02-05
1190
AI时代,大厂要被重新定义
在DeepSeek V3和 DeepSeek R1爆火之后,李彦宏的预言又被人扒出来活了。他说:“中国不会再有OpenAI出现了,OpenAI能够成功是因为大厂都不会看好这个方向,现在,国内大厂都参与进来了,别的公司成功的概率就非常低了”。
AI浩
2025-02-04
720
Yolo11改进策略:Block改进|注意力改进|FCA,自适应细粒度通道注意|即插即用
论文标题:Unsupervised Bidirectional Contrastive Reconstruction and Adaptive Fine-Grained Channel Attention Networks for image dehazing
AI浩
2025-02-04
920
【Block总结】FCA,自适应细粒度通道注意|即插即用
论文标题:Unsupervised Bidirectional Contrastive Reconstruction and Adaptive Fine-Grained Channel Attention Networks for image dehazing
AI浩
2025-02-04
1510
YoloV8改进策略:Block改进|注意力改进|FCA,自适应细粒度通道注意|即插即用
论文标题:Unsupervised Bidirectional Contrastive Reconstruction and Adaptive Fine-Grained Channel Attention Networks for image dehazing
AI浩
2025-01-22
1380
DeepSeek-V3报告解读
DeepSeek-V3实现多token预测的方式主要通过引入多token预测(Multi-Token Prediction, MTP)目标来增强模型的性能。
AI浩
2025-01-22
3660
Yolo11改进策略:Neck层改进|EFC,北理提出的适用小目标的特征融合模块|即插即用
论文题目:A Lightweight Fusion Strategy With Enhanced Interlayer Feature Correlation for Small Object Detection
AI浩
2025-01-20
2030
【Block总结】门控结构的MLP结构
记录一个具有门控模块的MLP,这个模块可以降低MLP的参数量,还可以提高模型的精度,很多模型都用到了这样的结构,代码如下:
AI浩
2025-01-16
940
【Block总结】Conv2Former的Block,结合卷积网络和Transformer的优点|即插即用
Conv2Former是一种新型的卷积神经网络(ConvNet),旨在结合卷积网络和Transformer的优点,以提升视觉识别任务的性能。传统的卷积神经网络在处理局部特征提取方面表现优异,但在建模全局信息和长距离依赖关系时存在局限。随着视觉Transformer(ViTs)的发展,研究者们开始探索如何将卷积操作与Transformer的自注意力机制相结合,以克服这些局限性。
AI浩
2025-01-15
1100
YoloV8改进策略:主干网络改进|CAS-ViT在YoloV8中的创新应用与显著性能提升
在深度学习与计算机视觉领域,模型效率与性能之间的平衡一直是研究者和开发者关注的焦点。特别是在实时检测与识别任务中,如YoloV8这类高效的目标检测模型,其主干网络的选择对整体性能具有决定性作用。近期,我们通过将CAS-ViT(卷积加性自注意力视觉Transformer)创新性地引入到YoloV8中,替换其原有的主干网络,实现了令人瞩目的性能提升,这一改进不仅彰显了CAS-ViT的强大潜力,也为YoloV8的进一步优化开辟了新路径。
AI浩
2025-01-15
1690
CrossFormer论文解读
CrossFormer是一种新型的视觉Transformer架构,旨在通过引入跨尺度注意力机制来提升计算机视觉任务的性能。该模型特别关注不同尺度特征之间的交互,解决了现有视觉Transformer在处理多尺度特征时的不足。
AI浩
2025-01-11
1430
【Block总结】多尺度并行大卷积核和并行注意力
MSPLCK(Multi-Scale Parallel Large Convolution Kernel,多尺度并行大卷积核模块) 是一种创新的深度学习模块,旨在通过多尺度特征提取和大卷积核的结合,增强模型对局部和全局信息的捕获能力。以下是对 MSPLCK 模块的详细解读:
AI浩
2025-01-10
2680
【Block总结】MCA多维协作注意力模块
论文连接:https://www.sciencedirect.com/science/article/abs/pii/S0952197623012630 翻译:https://jingjing.blog.csdn.net/article/details/144916015?spm=1001.2014.3001.5502
AI浩
2025-01-07
800
点击加载更多
社区活动
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·干货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档