人大经济论坛 › 论坛 › 数据科学与人工智能 › 数据分析与数据科学 › SAS专版 › 如何进行文本挖掘,文本挖掘的目的,web挖掘和目的

CDA数据分析研究院

商业数据分析与大数据领航教育品牌



经管云课堂

经管/金融/财会/社科/名师公开课



学术培训

Stata 空间计量 SSCI Python

贵宾：通行论坛特权+数据库权限
+案例库+下载特权 VIP：论坛特权+更多下载次数
+ccerdata数据库+更高阅读权限+……

12 下一页

发帖

楼主: 爱萌

18860 19

[原创博文] 如何进行文本挖掘,文本挖掘的目的,web挖掘和目的 [推广有奖]

6关注
205
粉丝

贵宾

学术权威

55%

还不是VIP/贵宾

威望: 8 级
论坛币: 96939 个
通用积分: 12.2915
学术水平: 231 点
热心指数: 299 点
信用等级: 157 点
经验: 102615 点
帖子: 6194
精华: 1
在线时间: 2021 小时
注册时间: 2007-3-2
最后登录: 2021-8-28

楼主

爱萌 发表于 2009-6-19 06:26:51 |只看作者 |坛友微信交流群|倒序 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

文本挖掘是新时期人们对数据的更加深入的需求的,文本挖掘的原材料是各种文本格式的文本,文字,图片,通过这些来分析相似,关键性,内部蕴涵的逻辑结构等等.
文本数据多是半结构化的数据,(结构化数据是有一定规律的数据,半结构化,是这些文本有标题,作者,出版日期,类别等结构的东西,同时也有非结构的成分:内容)
文本挖掘有很多方法,基于关键字的方法,标记方法,信息提取方法.

web挖掘是对网页的挖掘,这是因为随着www的发展,
越来越多的信息在网络中,这些数据不仅对商业,对经济,
而且对政治,文化有很深远的影响. web挖掘可以分为web内容挖掘,web结构挖掘,web使用挖掘,
可以根据html语言对web进行文本挖掘从而达到web挖掘,
但是很多网页并不遵守W3C html规范.

如何通过SAS进行编程对文本,web进行挖掘
为什么我一直在说SAS的文本挖掘和web挖掘,因为这些程序我还不知道如何编写,
其他程序我都知道了,也编写过了.
这是与算法相关的了!

文本挖掘是数据挖掘的一种，有时也看成是质性研究的一种方法。大致的意思就是对文本信息进行加工处理，对提取的信息进行统计处理的一项技术。广义上说，只要对文本信息进行探索的分析均可以归类为文本挖掘。其叫也法多种多样，如文字分析、文字探勘等，但表达的意思均大同小异。通常来说文本挖掘过程需要不断的尝试去获取最优模型，而不是一次就能完成，所以该过程需要不断调整。

1. 文本挖掘的一般过程：以手机消费为例。

假如现在有一份记录客户手机消费情形的报告。一般文本挖掘涉及的是海量的文本信息，否则人工阅读就可以了。

首先，信息提取，就是对文本信息进行处理,把文本形式转换成可以被识别的模式，这也是文本挖掘模式识别的一种。这时因为对整个文本信息提取的效率很低，需要经过转换成一种文本特征的模式，假如使用金额、品牌等代表购买手机倾向的特征，这些我们感兴趣的主题内容就作为文本挖掘中的目标信息，只是一开始这些关键词提取的效率很低，经过在特征基础上的提取，效率就会逐渐提高。例如将有关金额类相关的词进行归类，像昂贵、货真价实等词的归附过程，效率渐渐提高。

其次，文本挖掘过程可以看出是对关键信息的提取归类过程，但相对应的衍生语言是作为噪声存在的（或附属信息，当然也可以进一步分析）。提取的文本信息会按一定的规则产生结构化的数据，而且重要的是这个过程使特征内的相关性很大，特征间的相关性变小。

最后，文本挖掘最终出现的结果，由人工来判断这些信息的意义，例如苹果4S频率很高与很低频率的学生间相关很小，这基本能说明学生在苹果4S上的消费能力较低的结论。

所以总结起来大致包括如下几部分：

1）文本挖掘信息的预处理：需要对文本信息进行统一个格式，因为不同格式，有些软件可能会不识别，如果统一也方面后面的主题特征的进一步编码。缺失值、分布分析等这也是通常需要处理的过程。

2）文本挖掘描述：这一步是为分析人员提供整体特征的了解。这一过程是对主题词描述，包括词频、词在文本的出现的概率等信息。

3）特征抽取并分类：特征化的目的就是将数据降维，并从文档中抽取能反映研究主题的一些特征后，使用分类器进行训练，分类设置包括很多方法，如聚类、关联、信息检索、链接分析等方法。

4）结果的得分：测试得分用于文本挖掘的最终参考。

2. 类模型是文本分类的核心技术

总体来说对文本挖掘分类的模型包括两种：

（1）基于规则的文本分类

在规则文本分类的技术中，规则的设定很重要，这一般要求根据问题情境来设置。这里包括文本、类别的表示方法等。常用的规则分类方法包括：

决策树decision tree，这种方法在文本挖掘中有很重要的地位，其得出的结果很容易理解，比较直观，分类准确性也能保证，只是在实际应用中的效率不是很高，这在实际的商业用途上受到了极大的限制。

神经网络Neural Network,这种方法效率一般，最主要的是其内部的算法无从了解，这也是机器学习的一种，通过机器自己来寻找适合数据的方法。不过其优点是准确性能保证，而且在相同情况下，神经网络的结果准确性方法一般优于其他方法。

支持向量机(Support Vector Machine)技术原理上是处理二次规划的全局最优解问题，但是他的计算速度通常比较慢，所以效率也不能保证，在准确性方面一般还算理想，但尤其当我们的样本量不是很大的情况下，得到的结果往往比较稳定。

（2）基于统计的文本分类

这种文本挖掘的分类技术主要依据统计思想，来完成分类器的建立工作。

常用的规则分类方法包括：

朴素贝叶斯Naive Bayes，现在朴素贝叶斯在文本挖掘的应用中较为广泛，其原理当然还是概率，基本是将词频作为概率值的估计，首先对于每一个样本中的元素计算先验概率，然后计算一个样本对于每个分类的概率，概率最大的分类则被接受。这种方法的应用性较强，综合评比性能良好。

K近邻方法K-nearest neighbor，这种方法的缺点挺多，因为需要将新纳入的文本与已有的文本一一比较所以计算量很大，自然也就很慢，而且在要对比的样本中如果两两样本相差太大，也容易导致结果的不稳定。

3. 文本挖掘工具

现在很多数据挖掘软件里都包括文本挖掘技术，例如统计软件里包含的文本挖掘功能有SAS/EM、SPSS/Clementine等

例如：SAS/EM过程：text miner就是文本挖掘处理器。Sas9.1里提供了基本的处理方法，不过9.2版以后其文本挖掘技术有了大的突破。下面以sas9.1为例：

以下部分程序及其说明, 其他程序省略：

data _EXXMLTEXTPARS_0M2KV46; set &TEXT_SCOREDS; _TM_PVAR = tranwrd(VAR1, '00'x, " ");	文本挖掘主要是对字符间的关系处理，中文间的间隔需要进一步定义。
_TMP_ = trim("text='" \|\| left(_TM_PVAR)) \|\| "'>"; if (length(_TMP_) > 32760) then do;	字符间的连接，截取等
data take;set _EXXMLTEX_;by it;retain take;if first.it then take=0;take+1;run;	文本挖掘的文本特征化过程

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏8 回帖

关键词：web挖掘文本挖掘 WEB clementine clementin 挖掘文本 WEB 目的

本帖被以下文库推荐

· SAS精彩问答|主题: 2530, 订阅: 30

最恨对我说谎或欺骗我的人

使用道具举报

沙发

matrixty 发表于 2009-7-9 17:01:41 |只看作者 |坛友微信交流群

wo ding !thanks

使用道具举报

藤椅

linmingyang 发表于 2009-7-24 17:13:21 |只看作者 |坛友微信交流群

我好像还沒很懂啊

使用道具举报

板凳

爱萌 发表于 2009-7-25 01:05:13 |只看作者 |坛友微信交流群

本是想来一场讨论,只因为大家太忙了,都不愿意说自己的想法

最恨对我说谎或欺骗我的人

使用道具举报

报纸

kuhasu 发表于 2009-7-25 14:04:05 |只看作者 |坛友微信交流群

文本挖掘实际上分两种（至少），一种是半结构化语言，一种是自然语言。

使用道具举报

地板

josenpher 发表于 2009-12-31 15:39:48 |只看作者 |坛友微信交流群

可否提供一些算法帖子？感激……

使用道具举报

7楼

siegea 发表于 2010-8-31 22:19:45 |只看作者 |坛友微信交流群

学习中····

使用道具举报

8楼

hongxx 发表于 2010-9-1 09:35:59 |只看作者 |坛友微信交流群

前阵子跟同事讨论过，在金融领域的文本挖掘、WEB挖掘。
比如：国家政策在主流门户网站、网络报刊的发布和被转载，能否迅速抓取这些网页的关键字，进行评分与判断，评估对哪些股票或者板块将产生影响。
对股评家、分析师的论调进行文本分析，挖掘，提炼市场情绪等等。
国外学术上对media对股票市场的影响，文章不少，发布在不知名的刊物上的关于某公司的报道，比发布在华尔街日报上的影响小得多，通常一个公司在媒介上曝光越多，越被普通投资者关注。

有想法，但实施起来比较难。这个在实务上更难，坛友有兴趣，做一些毕业论文都不错。

welcome to
http://stochasticquant.com/

使用道具举报

9楼

爱萌 发表于 2010-9-1 16:17:50 |只看作者 |坛友微信交流群

hongxx 发表于 2010-9-1 09:35
前阵子跟同事讨论过，在金融领域的文本挖掘、WEB挖掘。
比如：国家政策在主流门户网站、网络报刊的发布和被转载，能否迅速抓取这些网页的关键字，进行评分与判断，评估对哪些股票或者板块将产生影响。
对股评家、分析师的论调进行文本分析，挖掘，提炼市场情绪等等。
国外学术上对media对股票市场的影响，文章不少，发布在不知名的刊物上的关于某公司的报道，比发布在华尔街日报上的影响小得多，通常一个公司在媒介上曝光越多，越被普通投资者关注。

有想法，但实施起来比较难。这个在实务上更难，坛友有兴趣，做一些毕业论文都不错。

很不错的建议

最恨对我说谎或欺骗我的人

使用道具举报

10楼

efan1988 发表于 2011-9-28 09:03:57 |只看作者 |坛友微信交流群

lz好样的，盼后续啊~

使用道具举报

返回列表

12 下一页

发帖

本版微信群

加好友,备注cda
拉您进交流群

手机版 |

意见反馈 |

帮助 |

新手入门 |

用户手册 |

友情链接 |

如有投资本站、合作意向或投放广告，请联系：13661292478（刘老师）

联系客服

邮箱：service@pinggu.org 投诉或不良信息处理：（010-68466864）

京ICP备16021002-2号京B2-20170662号京公网安备 11010802022788号论坛法律顾问：王进律师知识产权保护声明免责及隐私声明

[原创博文] 如何进行文本挖掘,文本挖掘的目的,web挖掘和目的 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我 拉你入群

相关帖子

本帖被以下文库推荐

本版微信群

扫码加我拉你入群