我是AI的新手。我正在工作一个应用程序,通过机器学习进行文本分类。应用程序需要对HTML文档的不同部分进行分类。例如,大多数网页都有标题、菜单、侧边栏、页脚、主要内容等。我想使用文本分类器对HTML文档的这些部分进行分类,并在页面上识别不同类型的表单。
如果有人能提供关于这个subject.
我正在寻找更多关于代码和实现的技术建议.
我可以将标签分配给html标记属性,比如类或id。
<div class="menu-1">
<div id="entry">
<div id="content">
<div id="footer">
<div id="comment-12">
<div id="comment-title">
比如第一项:
TrainClassifier(标签:“菜单”,值:"menu-1",属性:"class",字符串中位置:"21%",标记:"div");
输入:
string)
G 224
输出
什么神经网络库,可以接受上述输入,并将它们分类为标签(即菜单)。
所有的用户都不能创建regex或xpath,他们需要更简单的方法,因此,要使软件智能化,用户可以通过own浏览器控件突出自己需要的html文档的部分,并将软件训练到能够独立工作。
但我不知道怎么用人工智能来训练软件,
我正在寻找的人工智能是,它应该能够接受各种输入,并在此基础上进行分类,正如我已经说过的AI,不太了解它。
如果我能回答我提出的问题,比如我应该使用什么库,以及如何实现,建议Xpath或Regex或其他方法的答案--请不要回答,这将对我很有帮助。通常情况下,除了您需要的建议之外,您还会得到所有的建议。
发布于 2011-08-24 06:51:24
我建议你先看看简单的算法,这些算法很容易理解,我可以给出一些指点。
powerful).
如果您想了解这些工具的工作原理,请下载WEKA工具包:
http://sourceforge.net/projects/weka/
通常遵循的步骤如下:
1. Identify as many attributes/features as you can get (and a set of labels).
2. Collect data which is a set { Label, Attribute1, A2, A3, ... }
3. Select a minimal set of important attributes using feature selection algorithms (also available in the WEKA toolkit)
4. Train the classifier using standard algorithm
5. Test the system, until you receive the desired accuracy,recall, or other params.
祝好运!
发布于 2011-08-20 02:21:20
这是一个非常广泛的话题。有一些用于C#的神经网络库,只需在堆栈溢出上搜索它们。
在进行任何类型的分类之前,您需要执行监督培训。为了让ANN理解您要抛出的内容,您需要弄清楚如何解析HTML以获得您想要的结果。
例如,大多数网站将使用CSS在浏览器上呈现内容。其他站点可以使用表。你需要为两者进行训练。
你的问题可不容易。
发布于 2011-08-19 19:42:54
如果您有需要分配标签的数据片段,分类可以帮助您。事实并非如此。您最好手动编写XPath规则,以便拆解文档。
https://stackoverflow.com/questions/7121047
复制相似问题