00:00
被评委老师同学们上午好,我给大家带来的项目是巴的一个致力于让科研论文更易读懂的呃,项目。然后。呃,科研人一生要阅读大量的热论文,但目前存在一个普遍的痛点,呃,我们来看小明的一天。呃,呃,就是说早上打开PDF,他发现论文中术语术语很多,而且关键布局缺少默认你啥都懂。接着10点去翻getup代码,又面临代码呃舆论文难以对上关键算法淹没在茫茫代码库里的问题。呃,最后他转向知乎和博客,但发现信息碎片化,前沿观点聚合程度不高。总结下来,现在很多人读一篇论文需要2小时,但理解度却只有50%。我们的目标是通过fast paper read, 呃,把2小时的时间压缩成20分钟,将理解度拉高到呃那个90%。呃呃,为了解决这样一个痛点,我们设计了fast paper read的四大核心功能。第一,呃从论文到结构化的博客,我们能将白纸黑字论文转化成更是式样美观、突出重点、更易理解的技术博客。第二,呃算法。呃从代码到那个算法骨架,我们对论文代码进行了深度理解。呃提供包括数据流图核心呃模块架构图在内的一系列代码及提示,帮助读者理解核心算法。第三,呃外部知识库链接同步构建外部知识库,补充模型不知道的前沿知识,同时汇总前沿外部观点。第4的使用方建快捷,用户只需上传PDF论文或aixi bid以及提供代码链接即可零售等上手。
01:38
呃,接下来我们来看一下项目的架构,呃整个流程以论文和代码为输入,首先呃构建代码知识库和外部知识库,然后基于这些知识,通过基于deep deep research的论文解说器呃集成输出呃模块化的技术博客通过渲染器增强可读性。呃呃,在前置数据的处理中,我们有个特点,我们将PDF论文转化成text格式,因为text格式对复杂的公式支持最其被,且大模型输出和渲染最为稳定。
02:11
呃,在核心模块上,我们使用cloud code作为项目深度理解器,输入论文摘要。呃,输出代码知识、核心系统架构、核心算法的过程分析等。在构建外部知识库时,我们基于关键词搜索外联,并进行去重和重排,转化为结构化知识库。在论文解说器环节,我们通过agent遵循特定的规则列,如将数据流算法解释插入到对应描述后,将代码及框架图和论文及框架图融合,并将他人对论文的评论插入到对应位置。最终,这些结构化的内容通过。最终这些结构化的内容通过强可读性的渲染器渲染成可读性强的报告,最终输出的结果要点会被高亮。呃,强调哪怕是对一个领域一无所知的小白也能非常快的读懂论文。下面我们来看一下一个DEMO视频吧。
03:07
嗯,我们来看一下DEMO的这样。呃,大家可以看到演示中我们将呃项目呃那个进行了初始化,然后资源的下载,然后PDF呃转成T,呃然后我们进行了一个叫做什么呃自动搜索,构建知识库,呃最终会生成一个呃那个技术博客并渲染的一个过程,大家可以看一下这个DEMO。这个DEMO是一个真实的DEMO,对,大家可以到,呃,大家可以慢慢的先看一下,因为时间也不长。呃,然后我们可以看到fast paper read正是围绕科研人的核心痛点而设计的,通过集成代码论文呃和外部知识这样子的一个事情,呃高效解决了呃难阅读难题,致力于将科研论文呃的那个阅读效率提升到一个呃,就是说是新的高度啊,然后呃我们呃我我先呃从PPT里面出来,然后我们看一下,我们其实在那个布尔平台上已经呃呃部署了一个那个测试版本,我给大家看一下。
04:22
就是说是这样子的,呃,我们先看一下从头到底的一个过程,然后这就是咱们的布尔平台,然后这是开发者平台,我们把巴paper read已经部署好了,呃,接下来的话是这样子,呃,接下来的话是一个呃。呃,接下来的话是一个那个。开发者中心,我们这边全部都把文档什么都写好了已经,然后包括一个最佳实践和参考文献,我们是参考了两篇相关的学术的getthar的一个东西啊,然后接下来的话是一个,呃,对,就是一个所有的服务,我们就运行了这个测试的版本,然后测试的版本的话,呃,它的运行的速度可能没那么快,不可能在一分钟以内就完全就就已经全部所有的布局都好,那么我们就大概看一下它的呃,PDF下载是成功的,对,然后接下来的布局都其实也是都是成功,就是它的性能上面我们可能还要再优化一下,呃,基本上就是这样啊,然后最后的话,我还是想呃,感谢一下我们这边的一个队员,就是啊,包括刘静帆啊,包括钟辉平,包括邓伟,包括吴红,包括我们的一个外援,就是叶延新老师啊,然后呃呃刘静帆是我们那个上海交通大学呃的一个呃博士一年级的学生,他也是非常那个很不容易啊。
05:41
然后我是上海交通大学数学系的那个,呃,本科生,但是我已经毕业了很久,就工作了快十几年了,对对对对,这次和刘静帆一起组队非常的开心,然后钟辉平和邓伟他们都是英特尔的这边的专家啊,对,好,就是我的那个演讲基本上已经结束了,谢谢老师。
06:01
有请各位老师,各位评委老师提问。哎,你好,我想问一下呃功能上我觉得可能都考虑的比较比较好,就是这个效果上你们怎么去保证,比如说你的转换,从呃代码理解到这个,呃技术博客这些,怎么保证它的文章转换到这些的时候,你是把最重要最核心的信息都保留了呢?呃,这个我们来看一下啊。嗯,哎呃,那那个王老师,你这个问题提的很好,呃,就是说是最重要最核心的信息都保留了这个,哎,那那个静帆干嘛,静芳回答一下我能听到我说话吗?嗯,你好,我来回答一下这个问题,就是嗯。嗯,论文的重要信息很很重要,就是我们先对论文的PDF生成了一个论文的流程图总结,把这个论文的流程作为索引去代码库中,嗯,Query到相关部分的代码,这样就能保证嗯论文的重要信息一定不会丢失。同时就是代码会有很多无关的代码,Experiment部分的包括呃制作一些假数据部分那些无关的代码,它就可能嗯被在分析的时候被抛弃,不会产生多余的额外内容。
07:15
是这样吗?就是就是拿论文生成的索引去快代码,这样就不会出问题。OK, 然后你们那个生成技术博客的时候是用的同一套PRO对吧,就是我的理解就是说呃每可能会有,呃针对同一篇文章,可能会有些人看的侧重点可能会不太一样,对吧,但是你们甚至技术博客是都是同一篇技术博客对吧。啊是什么什么意思,就是输入一篇论文,就就针对一篇论文你们的,你们整个P的,呃,这个是没有没有不一样的版本,或者说可以允许用户自定义之类的是吧。呃,目前我们是这样的,呃,目前应该是这样的,明白明白,对不过老师说的这个非常好,就是后面的话,因为我们会有一些基础的PRO的版本,就是比如说各种类型的论文,后面会加一个comment,同时的话,我们也会有一些自定义的这些后面就是我们后面也要开发,对我们在第二阶段的时候做一些简单的优化,对王王老师你你提的很好,你给我们建议非常好。
08:16
OK, 好的,谢谢,谢谢。那我就停止共享了,下一步,下下下一组。好,谢谢老师do进行展示。
我来说两句