首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >人工智能,文本分类器

人工智能,文本分类器
EN

Stack Overflow用户
提问于 2011-08-19 11:44:23
回答 3查看 2.4K关注 0票数 7

我是AI的新手。我正在工作一个应用程序,通过机器学习进行文本分类。应用程序需要对HTML文档的不同部分进行分类。例如,大多数网页都有标题、菜单、侧边栏、页脚、主要内容等。我想使用文本分类器对HTML文档的这些部分进行分类,并在页面上识别不同类型的表单。

如果有人能提供关于这个subject.

  • Examples的类似应用程序的详细指导,也会非常有用。

我正在寻找更多关于代码和实现的技术建议.

我可以将标签分配给html标记属性,比如类或id。

代码语言:javascript
运行
复制
<div class="menu-1">
<div id="entry">
<div id="content">
<div id="footer">
<div id="comment-12">
<div id="comment-title">

比如第一项:

TrainClassifier(标签:“菜单”,值:"menu-1",属性:"class",字符串中位置:"21%",标记:"div");

输入:

string)

  • "div“

  • ”menu-1“(属性值)

  • 列表项目

  • ”class“(属性名)

  • ”21“(标签位置)

G 224

输出

  1. “菜单”(归类为标签)

什么神经网络库,可以接受上述输入,并将它们分类为标签(即菜单)。

所有的用户都不能创建regex或xpath,他们需要更简单的方法,因此,要使软件智能化,用户可以通过own浏览器控件突出自己需要的html文档的部分,并将软件训练到能够独立工作。

但我不知道怎么用人工智能来训练软件,

我正在寻找的人工智能是,它应该能够接受各种输入,并在此基础上进行分类,正如我已经说过的AI,不太了解它。

如果我能回答我提出的问题,比如我应该使用什么库,以及如何实现,建议Xpath或Regex或其他方法的答案--请不要回答,这将对我很有帮助。通常情况下,除了您需要的建议之外,您还会得到所有的建议。

EN

回答 3

Stack Overflow用户

发布于 2011-08-24 06:51:24

我建议你先看看简单的算法,这些算法很容易理解,我可以给出一些指点。

powerful).

  • Maximum Bayes (您会发现许多实现,但您可以自己实现,algo实现起来很简单,但却很容易实现powerful).

  • Maximum熵(例如。SharpMaxEnt -开源).

  • 支持向量机(例如.LibSVM for C#端口)。

如果您想了解这些工具的工作原理,请下载WEKA工具包:

http://sourceforge.net/projects/weka/

通常遵循的步骤如下:

代码语言:javascript
运行
复制
1. Identify as many attributes/features as you can get (and a set of labels).
2. Collect data which is a set { Label, Attribute1, A2, A3, ... }
3. Select a minimal set of important attributes using feature selection algorithms (also available in the WEKA toolkit)
4. Train the classifier using standard algorithm
5. Test the system, until you receive the desired accuracy,recall, or other params.

祝好运!

票数 3
EN

Stack Overflow用户

发布于 2011-08-20 02:21:20

这是一个非常广泛的话题。有一些用于C#的神经网络库,只需在堆栈溢出上搜索它们。

在进行任何类型的分类之前,您需要执行监督培训。为了让ANN理解您要抛出的内容,您需要弄清楚如何解析HTML以获得您想要的结果。

例如,大多数网站将使用CSS在浏览器上呈现内容。其他站点可以使用表。你需要为两者进行训练。

你的问题可不容易。

票数 2
EN

Stack Overflow用户

发布于 2011-08-19 19:42:54

如果您有需要分配标签的数据片段,分类可以帮助您。事实并非如此。您最好手动编写XPath规则,以便拆解文档。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/7121047

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档