首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

干货|互联网时代的社会语言学:基于SNS的文本数据挖掘

今年上半年,我在人人网实习了一段时间,期间得到了很多宝贵的数据,并做了一些还算有意义的事情,在这里和大家一块儿分享。感谢人人网提供的数据与工作环境,感谢赵继承博士、詹卫东老师的支持和建议。在这项工作中,我得到了很多与众人交流的机会,特别感谢 OpenParty 、 TEDxBeijing 提供的平台。本文已发表在了《程序员》杂志,分上下两部分刊于 2012 年 7 月刊和 8 月刊,在此感谢卢鸫翔编辑的辛勤工作。由于众所周知的原因,《程序员》刊出的文章被和谐过(看到后面大家就自动地知道被和谐的内容是什么了),因而我决定把完整版发在 Blog 上,同时与更多的人一同分享。对此感兴趣的朋友可以给我发邮件继续交流。好了,开始说正文吧。

03

无OpenAI,Elastic ELSER 与 Q&A 模型配合实现语义搜索与问题回答

这个视频展示了 Elastic 中的 ELSER 和 Q&A 模型,它们是两个基于自然语言处理的模型,可以提供高度相关的搜索结果和准确的问题回答,而不需要依赖 OpenAI 的服务。ELSER 是一个基于词扩展的语义搜索模型,它可以通过扩展查询中的关键词,找到与查询意图最匹配的文本。Q&A 模型则是常用的NLP模型,它可以从 ELSER 检索到的文本片段中提取出问题的答案。视频中演示了几个不同的查询,比较了 ELSER 和 BM25 的结果,并展示了 Q&A 模型如何从返回的文本中找到答案。BM25 是一个传统的基于词频和逆文档频率的搜索算法,它只关注查询中的关键词,而不考虑其在语料库中的近似程度。因此,BM25 的结果往往不够相关或准确。

03

HTML DOM

DOM 文档对象模型。 节点 元素 即 标签 Element 1 文本 文本 Text 3 属性 Attr 2 注释节点 Comment 8 文档节点 Document 9 文档类型节点 DocumentType 10 <!DOCTYPE html> 文档片段节点 DocumentFragment 11 Javascript obj.nodeName obj.nodeValue obj.attributes[0].nodeName

05
领券