楼主: 爱萌
18860 19

[原创博文] 如何进行文本挖掘,文本挖掘的目的,web挖掘和目的 [推广有奖]

贵宾

学术权威

55%

还不是VIP/贵宾

-

威望
8
论坛币
96939 个
通用积分
12.2915
学术水平
231 点
热心指数
299 点
信用等级
157 点
经验
102615 点
帖子
6194
精华
1
在线时间
2021 小时
注册时间
2007-3-2
最后登录
2021-8-28

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
文本挖掘是新时期人们对数据的更加深入的需求的,文本挖掘的原材料是各种文本格式的文本,文字,图片,通过这些来分析相似,关键性,内部蕴涵的逻辑结构等等.
文本数据多是半结构化的数据,(结构化数据是有一定规律的数据,半结构化,是这些文本有标题,作者,出版日期,类别等结构的东西,同时也有非结构的成分:内容)
文本挖掘有很多方法,基于关键字的方法,标记方法,信息提取方法.

web挖掘是对网页的挖掘,这是因为随着www的发展,
越来越多的信息在网络中,这些数据不仅对商业,对经济,
而且对政治,文化有很深远的影响. web挖掘可以分为web内容挖掘,web结构挖掘,web使用挖掘,
可以根据html语言对web进行文本挖掘从而达到web挖掘,
但是很多网页并不遵守W3C html规范.


如何通过SAS进行编程对文本,web进行挖掘
为什么我一直在说SAS的文本挖掘和web挖掘,因为这些程序我还不知道如何编写,
其他程序我都知道了,也编写过了.
这是与算法相关的了!


       文本挖掘是数据挖掘的一种,有时也看成是质性研究的一种方法。大致的意思就是对文本信息进行加工处理,对提取的信息进行统计处理的一项技术。广义上说,只要对文本信息进行探索的分析均可以归类为文本挖掘。其叫也法多种多样,如文字分析、文字探勘等,但表达的意思均大同小异。通常来说文本挖掘过程需要不断的尝试去获取最优模型,而不是一次就能完成,所以该过程需要不断调整。



       1. 文本挖掘的一般过程:以手机消费为例。

           假如现在有一份记录客户手机消费情形的报告。一般文本挖掘涉及的是海量的文本信息,否则人工阅读就可以了。

首先,信息提取,就是对文本信息进行处理,把文本形式转换成可以被识别的模式,这也是文本挖掘模式识别的一种。这时因为对整个文本信息提取的效率很低,需要经过转换成一种文本特征的模式,假如使用金额、品牌等代表购买手机倾向的特征,这些我们感兴趣的主题内容就作为文本挖掘中的目标信息,只是一开始这些关键词提取的效率很低,经过在特征基础上的提取,效率就会逐渐提高。例如将有关金额类相关的词进行归类,像昂贵、货真价实等词的归附过程,效率渐渐提高。

其次,文本挖掘过程可以看出是对关键信息的提取归类过程,但相对应的衍生语言是作为噪声存在的(或附属信息,当然也可以进一步分析)。提取的文本信息会按一定的规则产生结构化的数据,而且重要的是这个过程使特征内的相关性很大,特征间的相关性变小。

           最后,文本挖掘最终出现的结果,由人工来判断这些信息的意义,例如苹果4S频率很高与很低频率的学生间相关很小,这基本能说明学生在苹果4S上的消费能力较低的结论。

          所以总结起来大致包括如下几部分:

          1)文本挖掘信息的预处理:需要对文本信息进行统一个格式,因为不同格式,有些软件可能会不识别,如果统一也方面后面的主题特征的进一步编码。缺失值、分布分析等这也是通常需要处理的过程。

          2)文本挖掘描述:这一步是为分析人员提供整体特征的了解。这一过程是对主题词描述,包括词频、词在文本的出现的概率等信息。

          3 特征抽取并分类:特征化的目的就是将数据降维,并从文档中抽取能反映研究主题的一些特征后,使用分类器进行训练,分类设置包括很多方法,如聚类、关联、信息检索、链接分析等方法。

          4 结果的得分:测试得分用于文本挖掘的最终参考。

     

2. 类模型是文本分类的核心技术

总体来说对文本挖掘分类的模型包括两种:

1)基于规则的文本分类

在规则文本分类的技术中,规则的设定很重要,这一般要求根据问题情境来设置。这里包括文本、类别的表示方法等。常用的规则分类方法包括:

决策树decision tree,这种方法在文本挖掘中有很重要的地位,其得出的结果很容易理解,比较直观,分类准确性也能保证,只是在实际应用中的效率不是很高,这在实际的商业用途上受到了极大的限制。

神经网络Neural Network,这种方法效率一般,最主要的是其内部的算法无从了解,这也是机器学习的一种,通过机器自己来寻找适合数据的方法。不过其优点是准确性能保证,而且在相同情况下,神经网络的结果准确性方法一般优于其他方法。

支持向量机(Support Vector Machine)技术原理上是处理二次规划的全局最优解问题,但是他的计算速度通常比较慢,所以效率也不能保证,在准确性方面一般还算理想,但尤其当我们的样本量不是很大的情况下,得到的结果往往比较稳定。

2)基于统计的文本分类

这种文本挖掘的分类技术主要依据统计思想,来完成分类器的建立工作。

常用的规则分类方法包括:

朴素贝叶斯Naive Bayes,现在朴素贝叶斯在文本挖掘的应用中较为广泛,其原理当然还是概率,基本是将词频作为概率值的估计,首先对于每一个样本中的元素计算先验概率,然后计算一个样本对于每个分类的概率,概率最大的分类则被接受。这种方法的应用性较强,综合评比性能良好。

K近邻方法K-nearest neighbor,这种方法的缺点挺多,因为需要将新纳入的文本与已有的文本一一比较所以计算量很大,自然也就很慢,而且在要对比的样本中如果两两样本相差太大,也容易导致结果的不稳定。

3. 文本挖掘工具

现在很多数据挖掘软件里都包括文本挖掘技术,例如统计软件里包含的文本挖掘功能有SAS/EMSPSS/Clementine

例如:SAS/EM过程:text miner就是文本挖掘处理器。Sas9.1里提供了基本的处理方法,不过9.2版以后其文本挖掘技术有了大的突破。下面以sas9.1为例:

以下部分程序及其说明, 其他程序省略:


data _EXXMLTEXTPARS_0M2KV46; set &TEXT_SCOREDS; _TM_PVAR = tranwrd(VAR1, '00'x, " ");

文本挖掘主要是对字符间的关系处理,中文间的间隔需要进一步定义。

_TMP_ = trim("text='" || left(_TM_PVAR)) || "'>"; if (length(_TMP_) > 32760) then do;

字符间的连接,截取等

data take;set _EXXMLTEX_;by it;retain take;if first.it then take=0;take+1;run;

文本挖掘的文本特征化过程


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:web挖掘 文本挖掘 WEB clementine clementin 挖掘 文本 WEB 目的

已有 1 人评分学术水平 热心指数 信用等级 收起 理由
maxin106 + 1 + 1 + 1 高手

总评分: 学术水平 + 1  热心指数 + 1  信用等级 + 1   查看全部评分

本帖被以下文库推荐

最恨对我说谎或欺骗我的人
沙发
matrixty 发表于 2009-7-9 17:01:41 |只看作者 |坛友微信交流群
wo ding !thanks

使用道具

藤椅
linmingyang 发表于 2009-7-24 17:13:21 |只看作者 |坛友微信交流群
我好像还沒很懂啊

使用道具

板凳
爱萌 发表于 2009-7-25 01:05:13 |只看作者 |坛友微信交流群
本是想来一场讨论,只因为大家太忙了,都不愿意说自己的想法
最恨对我说谎或欺骗我的人

使用道具

报纸
kuhasu 发表于 2009-7-25 14:04:05 |只看作者 |坛友微信交流群
文本挖掘实际上分两种(至少),一种是半结构化语言,一种是自然语言。

使用道具

地板
josenpher 发表于 2009-12-31 15:39:48 |只看作者 |坛友微信交流群
BZ 可否提供一些算法帖子?感激……

使用道具

7
siegea 发表于 2010-8-31 22:19:45 |只看作者 |坛友微信交流群
学习中····

使用道具

8
hongxx 发表于 2010-9-1 09:35:59 |只看作者 |坛友微信交流群
前阵子跟同事讨论过,在金融领域的文本挖掘、WEB挖掘。
比如:国家政策在主流门户网站、网络报刊的发布和被转载,能否迅速抓取这些网页的关键字,进行评分与判断,评估对哪些股票或者板块将产生影响。
对股评家、分析师的论调进行文本分析,挖掘,提炼市场情绪等等。
国外学术上对media对股票市场的影响,文章不少,发布在不知名的刊物上的关于某公司的报道,比发布在华尔街日报上的影响小得多,通常一个公司在媒介上曝光越多,越被普通投资者关注。

有想法,但实施起来比较难。这个在实务上更难,坛友有兴趣,做一些毕业论文都不错。

使用道具

9
爱萌 发表于 2010-9-1 16:17:50 |只看作者 |坛友微信交流群
hongxx 发表于 2010-9-1 09:35
前阵子跟同事讨论过,在金融领域的文本挖掘、WEB挖掘。
比如:国家政策在主流门户网站、网络报刊的发布和被转载,能否迅速抓取这些网页的关键字,进行评分与判断,评估对哪些股票或者板块将产生影响。
对股评家、分析师的论调进行文本分析,挖掘,提炼市场情绪等等。
国外学术上对media对股票市场的影响,文章不少,发布在不知名的刊物上的关于某公司的报道,比发布在华尔街日报上的影响小得多,通常一个公司在媒介上曝光越多,越被普通投资者关注。

有想法,但实施起来比较难。这个在实务上更难,坛友有兴趣,做一些毕业论文都不错。
很不错的建议
最恨对我说谎或欺骗我的人

使用道具

10
efan1988 发表于 2011-9-28 09:03:57 |只看作者 |坛友微信交流群
lz好样的,盼后续啊~

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-5-21 23:17