当前位置：文档库 › 利用概率主题模型的微博热点话题发现方法

利用概率主题模型的微博热点话题发现方法

2014 年第23卷第 8 期 https://www.wendangku.net/doc/6d13399461.html, 计算机系统应用

Software Technique ·Algorithm 软件技术·算法 163

利用概率主题模型的微博热点话题发现方法①

米文丽1, 孙曰昕2

1(陇东学院信息工程学院, 庆阳 745000)

(西北师范大学计算机科学与工程学院, 兰州 730070)

摘要: 微博具有长度短、实时传播、结构复杂以及变形词多等特点, 传统的向量空间模型(VSM)文本表示方法和隐含语义分析(LSA)无法很好的对其进行建模. 提出了一种基于概率潜在语义分析(pLSA)和K 均值聚类(Kmeans)的二阶段聚类算法, 此外通过定义微博热度分析和排序, 有效地支持微博热点话题发现. 实验表明, 此方法能有效地进行话题聚类并检测出热点话题. 关键词: 概率潜在语义分析; 话题发现; 微博; Kmeans

Microblog Hot Topics Discovery Method Based on Probabilistic Topic Model

MI Wen-Li 1 , SUN Yue-Xin 2

1(College of Information Engineering, Longdong University, Qingyang 745000, China)

(College of Computer Science & Engineering, Northwest Normal University, Lanzhou 730070, China)

Abstract : Microblog has the characteristic of short length, complex structure and words deformation. Therefore, traditional vector space model (VSM) and latent semantic analysis (LSA) are not suitable for modeling them. In this paper, a two stage clustering algorithm based on probabilistic latent semantic analysis (pLSA) and Kmeans clustering (Kmeans) is proposed. Besides, this paper also presents the definition of popularity and mechanism of sorting the topics. Experiments show that our method can effectively cluster topics and be applied to microblog hot topic detection. Key words : probabilistic latent semantic analysis; topic detection; microblog; Kmeans

近年来,在互联网上蓬勃发展的微博客(微博)越来越多地引起了人们的关注. 微博从传统的社交网络中脱胎而出,在拥有了独立的服务平台后逐渐演化为一种新的信息发布形式.

然而, 微博数据主要由普通用户产生, 无论是用词、形式还是具体内容的质量都参差不齐, 给话题发现带来很大困难. 目前话题发现研究主要集中在新闻类数据上, 社会网络上(含微博)话题检测的研究相对较少. 大多数专家和学者都在“Twitter”英文微博数据进行了相关研究, 如Pal 等人提出一种寻找Twitter 网络中特定话题的关键人物的算法[1]; 文献[2-3]在大规模Twitter 数据集上, 用LDA(Latent Dirichlet Allocation)模型来建模挖掘话题; Ramage 等[4]构造了一个半监督学习模型L-LDA 将用户和Twitter 特性化来个性化用户信息需求; Teevan [5]等人, 通过分析大量

①收稿时间:2013-12-18;收到修改稿时间:2014-01-14

的Twitter 上的检索日志和传统搜索引擎上的检索日志, 对微博上的搜索和传统的Web 搜索做了一个完善而全面的对比, 发现Twitter 用户倾向于去搜索时间相关的信息, 比如爆炸性的新闻和一些当前的流行趋势; Neil [6]认为Twitter 是对整个社会事实的反应,可以从中窥探社会这个庞大的机体,同时作者通过一个清晰的结构图展示了Twitter 上帖子的互动、转发和话题的转换; 日本学者Takeshi 等人[7]通过日本地震相关微博进行语义分析和位置检测而建立了一套地震报告系统,此系统将微博的及时性作为区别于其他社会化媒体的重要特征. 相对于英文微博, 在中文微博研究方面相关文献较少, 孙胜平[8]提出了基于SP&HA 聚类的微博客话题检测方法,利用VSM 建模后衡量文本相似度, 最后用层次聚类算法实现话题检测; 郑斐然[9]采用向量空间模型在线检测中文微博消息中的关键字, 并对

概率图模型研究进展综述

软件学报ISSN 1000-9825, CODEN RUXUEW E-mail: jos@https://www.wendangku.net/doc/6d13399461.html, Journal of Software,2013,24(11):2476?2497 [doi: 10.3724/SP.J.1001.2013.04486] https://www.wendangku.net/doc/6d13399461.html, +86-10-62562563 ?中国科学院软件研究所版权所有. Tel/Fax: ? 概率图模型研究进展综述张宏毅1,2, 王立威1,2, 陈瑜希1,2 1(机器感知与智能教育部重点实验室(北京大学),北京 100871) 2(北京大学信息科学技术学院智能科学系,北京 100871) 通讯作者: 张宏毅, E-mail: hongyi.zhang.pku@https://www.wendangku.net/doc/6d13399461.html, 摘要: 概率图模型作为一类有力的工具,能够简洁地表示复杂的概率分布,有效地(近似)计算边缘分布和条件分布,方便地学习概率模型中的参数和超参数.因此,它作为一种处理不确定性的形式化方法,被广泛应用于需要进行自动的概率推理的场合,例如计算机视觉、自然语言处理.回顾了有关概率图模型的表示、推理和学习的基本概念和主要结果,并详细介绍了这些方法在两种重要的概率模型中的应用.还回顾了在加速经典近似推理算法方面的新进展.最后讨论了相关方向的研究前景. 关键词: 概率图模型;概率推理;机器学习中图法分类号: TP181文献标识码: A 中文引用格式: 张宏毅,王立威,陈瑜希.概率图模型研究进展综述.软件学报,2013,24(11):2476?2497.https://www.wendangku.net/doc/6d13399461.html,/ 1000-9825/4486.htm 英文引用格式: Zhang HY, Wang LW, Chen YX. Research progress of probabilistic graphical models: A survey. Ruan Jian Xue Bao/Journal of Software, 2013,24(11):2476?2497 (in Chinese).https://www.wendangku.net/doc/6d13399461.html,/1000-9825/4486.htm Research Progress of Probabilistic Graphical Models: A Survey ZHANG Hong-Yi1,2, WANG Li-Wei1,2, CHEN Yu-Xi1,2 1(Key Laboratory of Machine Perception (Peking University), Ministry of Education, Beijing 100871, China) 2(Department of Machine Intelligence, School of Electronics Engineering and Computer Science, Peking University, Beijing 100871, China) Corresponding author: ZHANG Hong-Yi, E-mail: hongyi.zhang.pku@https://www.wendangku.net/doc/6d13399461.html, Abstract: Probabilistic graphical models are powerful tools for compactly representing complex probability distributions, efficiently computing (approximate) marginal and conditional distributions, and conveniently learning parameters and hyperparameters in probabilistic models. As a result, they have been widely used in applications that require some sort of automated probabilistic reasoning, such as computer vision and natural language processing, as a formal approach to deal with uncertainty. This paper surveys the basic concepts and key results of representation, inference and learning in probabilistic graphical models, and demonstrates their uses in two important probabilistic models. It also reviews some recent advances in speeding up classic approximate inference algorithms, followed by a discussion of promising research directions. Key words: probabilistic graphical model; probabilistic reasoning; machine learning 我们工作和生活中的许多问题都需要通过推理来解决.通过推理,我们综合已有的信息,对我们感兴趣的未知量做出估计,或者决定采取某种行动.例如,程序员通过观察程序在测试中的输出判断程序是否有错误以及需要进一步调试的代码位置,医生通过患者的自我报告、患者体征、医学检测结果和流行病爆发的状态判断患者可能罹患的疾病.一直以来,计算机科学都在努力将推理自动化,例如,编写能够自动对程序进行测试并且诊断 ?基金项目: 国家自然科学基金(61222307, 61075003) 收稿时间:2013-07-17; 修改时间: 2013-08-02; 定稿时间: 2013-08-27

数学建模常用模型方法总结精品

【关键字】设计、方法、条件、动力、增长、计划、问题、系统、网络、理想、要素、工程、项目、重点、检验、分析、规划、管理、优化、中心数学建模常用模型方法总结无约束优化线性规划连续优化非线性规划整数规划离散优化组合优化数学规划模型多目标规划目标规划动态规划从其他角度分类网络规划多层规划等… 运筹学模型（优化模型）图论模型存储论模型排队论模型博弈论模型可靠性理论模型等… 运筹学应用重点:①市场销售②生产计划③库存管理④运输问题⑤财政和会计⑥人事管理⑦设备维修、更新和可靠度、项目选择和评价⑧工程的最佳化设计⑨计算器和讯息系统⑩城市管理优化模型四要素：①目标函数②决策变量③约束条件 ④求解方法(MATLAB--通用软件LINGO--专业软件) 聚类分析、主成分分析因子分析多元分析模型判别分析典型相关性分析对应分析多维标度法概率论与数理统计模型假设检验模型相关分析回归分析方差分析贝叶斯统计模型时间序列分析模型决策树逻辑回归

传染病模型马尔萨斯人口预测模型微分方程模型人口预测控制模型经济增长模型Logistic 人口预测模型战争模型等等。。灰色预测模型回归分析预测模型预测分析模型差分方程模型马尔可夫预测模型时间序列模型插值拟合模型神经网络模型系统动力学模型(SD) 模糊综合评判法模型数据包络分析综合评价与决策方法灰色关联度主成分分析秩和比综合评价法理想解读法等旅行商(TSP)问题模型背包问题模型车辆路径问题模型物流中心选址问题模型经典NP问题模型路径规划问题模型着色图问题模型多目标优化问题模型车间生产调度问题模型最优树问题模型二次分配问题模型模拟退火算法(SA) 遗传算法(GA) 智能算法蚁群算法(ACA) (启发式) 常用算法模型神经网络算法蒙特卡罗算法元胞自动机算法穷举搜索算法小波分析算法确定性数学模型三类数学模型随机性数学模型模糊性数学模型

LDA主题模型发现

LDA主题模型发现 1.LDA概念： LDA(Latent Dirichlet Allocation)主题模型由Blei于2003年提出，是在概率隐性语义索引(probabilistic Latent Semantic Indexing，pLSI)上扩展得到的三层贝叶斯概率模型，是文档生成概率模型。LDA模型包含词项、主题和文档三层结构，其基本思想是把文档看成其隐含主题的混合，而每个主题则表现为跟该主题相关的词项的概率分布，LDA可以用来识别大规模文档集或语料库中潜在的主题信息。LDA基于词袋(bag of words)模型，认为文档和单词都是可交换的，忽略单词在文档中的顺序和文档在语料库中的顺序，从而将文本信息转化为易于建模的数字信息。在主题模型中，主题表示一个概念、一个方面，表现为一系列相关的单词，是这些单词的条件概率。形象来说，主题就是一个桶，里面装了出现概率较高的单词，这些单词与这个主题有很强的相关性。 2.LDA生成过程：首先，可以用生成模型来看文档和主题这两件事。所谓生成模型，就是说，我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题，并从这个主题中以一定概率选择某个词语”这样一个过程得到的。那么，如果我们要生成一篇文档，它里面的每个词语出现的概率为：这个概率公式可以用矩阵表示其中”文档-词语”矩阵表示每个文档中每个单词的词频，即出现的概率；”主题-词语”矩阵表示每个主题中每个单词的出现概率；”文档-主题”矩阵表示每个文档中每个主题出现的概率。 LDA整体流程为：先定义一些字母的含义：文档集合D，topic集合T D中每个文档d看作一个单词序列，wi表示第i个单词，设d有n个单词。（LDA里面称之为word bag，实际上每个单词的出现位置对LDA算法无影响） D中涉及的所有不同单词组成一个大集合VOCABULARY（简称VOC） LDA以文档集合D作为输入（会有切词，去停用词，取词干等常见的预处理，

微博营销技巧-利用微博热门话题营销推广的方法

微博营销推广——只有找机会展示自己，才有机会获得更多的关注，这就是微博营销推广的核心思想！如果不在网友面前展示自己，没人会知道你的存在！没人会去关注你！没人会去主动看你的微博…难道不是这个道理吗！在纷杂的微博世界中如何展示自己呢？今天和大家分享一下利用微博热门话题进行微博营销推广的方法，不妥之处，望大家多多指点。腾讯微博每天都会建立一些社会热点、或有争议的话题，直接推送给广大网友，这些话题网友参与度极高，每小时就会有上万条网友发表的话题广播。参与话题广播的网友和微博内容都是可见的，这就为微博营销推广创造了机会。目的选择在热门话题下广播的用户，向他们发私信，只要用户阅读私信内容，就达到了营销推广的目的。要点 1. 参与话题广播的用户都是微博活跃用户，可以根据用户类型对用户进行筛选。 2. 选择最近10分钟在话题下广播的用户，因为这个时间段内的用户一般都在线，可能马上阅读私信。 3. 发给用户的私信内容可以是推广信息，也可以是吸引用户关注我们微博的内容… 实践结果 1. 用户类型是非认证用户（即普通用户）更适合做营销推广，大部分普通用户允许接收所有人发来的私信。 2. 选择最近10分钟在话题下广播的用户，向他们发私信，收到私信后会马上阅读的用户比例是60%~80%，20%~40%的用户会在再次上线时阅读私信。 3. 同时循环操作多个热门话题效果更佳。例如：选择最近10分钟在话题下广播的用户，向他们发私信，10分钟以后再提取刚刚在话题下广播的用户，向他们发私信…反复循环操作。 4. 用户对私信内容的可接受度（即可信度）与内容质量有直接关系，提高内容质量很关键。操作方法如何找到热门话题？腾讯微博“我的首页”右侧“热门话题”栏目是腾讯微博官方建立的热门话题，也可以选择“健康”、“美食”等关键词的话题。总之，参与网友多的话题，就是有利用价值的话题。同时循环操作多个话题，有两个操作方法，一是手工操作，二是自动化操作。手工操作效率很低，很累人，效果不明显。自动化操作就不同了，效率高，很省心。我采用的是自动化操作方法，用快微软件实现的，该软件具有设置与操作非常灵活的特点，具体操作方法如下。用快微软件创建任务，软件截图如下：

概率论与数理统计公式定理全总结

第一章 P(A+B)=P(A)+P(B)- P(AB) 特别地，当A 、B 互斥时， P(A+B)=P(A)+P(B) 条件概率公式概率的乘法公式全概率公式：从原因计算结果 Bayes 公式：从结果找原因第二章二项分布（Bernoulli 分布）——X~B(n,p) 泊松分布——X~P(λ) 概率密度函数怎样计算概率均匀分布X~U(a,b) 指数分布X~Exp (θ) 分布函数对离散型随机变量对连续型随机变量分布函数与密度函数的重要关系：二元随机变量及其边缘分布分布规律的描述方法联合密度函数联合分布函数联合密度与边缘密度离散型随机变量的独立性连续型随机变量的独立性第三章数学期望离散型随机变量，数学期望定义连续型随机变量，数学期望定义 ● E(a)=a ，其中a 为常数 ● E(a+bX)=a+bE(X)，其中a 、b 为常数 ● E(X+Y)=E(X)+E(Y)，X 、Y 为任意随机变量随机变量g(X)的数学期望常用公式 ) () ()|(B P AB P B A P =)|()()(B A P B P AB P =) |()(A B P A P =∑ ==n k k k B A P B P A P 1)|()()(∑ ==n k k k i i k B A P B P B A P B P A B P 1 )|()()|()()|() ,...,1,0()1()(n k p p C k X P k n k k n =-==-，,...) 1,0(! )(== =-k e k k X P k ，λλ 1)(=? +∞ ∞ -dx x f )(b X a P ≤≤?=≤≤b a dx x f b X a P )()() 0(1 )(/≥= -x e x f x θ θ ∑≤==≤=x k k X P x X P x F ) ()()(? ∞ -=≤=x dt t f x X P x F )()()(? ∞ -=≤=x dt t f x X P x F )()()() ,(y x f ),(y x F 0 ),(≥y x f 1),(=?? +∞∞-+∞ ∞ -dxdy y x f 1),(0≤≤y x F },{),(y Y x X P y x F ≤≤=?+∞ ∞ -=dy y x f x f X ),()(?+∞ ∞ -=dx y x f y f Y ),()(} {}{},{j Y P i X P j Y i X P =====) ()(),(y f x f y x f Y X =∑+∞ -∞ =?= k k k P x X E )(? +∞ ∞ -?=dx x f x X E )()(∑ =k k k p x g X g E )())((∑∑=i j ij i p x X E )(dxdy y x xf X E ??=),()() (1 )(b x a a b x f ≤≤-= ) ()('x f x F =

最大似然估计学习总结(概率论大作业)

最大似然估计学习总结航天学院探测制导与控制技术杨若眉1110420123 摘要：最大似然估计是一种统计方法，它用来求一个样本集的相关概率密度函数的参数。最大似然法明确地使用概率模型，其目标是寻找能够以较高概率产生观察数据的系统发生树。最大似然法是一类完全基于统计的系统发生树重建方法的代表。关键词：最大似然估计；离散；连续；概率密度最大似然估计是一种统计方法，它用来求一个样本集的相关概率密度函数的参数。这个方法最早是遗传学家以及统计学家罗纳德·费雪爵士在1912年至1922年间开始使用的。 “似然”是对likelihood 的一种较为贴近文言文的翻译，“似然”用现代的中文来说即“可能性”。故而，若称之为“最大可能性估计”则更加通俗易懂。最大似然法明确地使用概率模型，其目标是寻找能够以较高概率产生观察数据的系统发生树。最大似然法是一类完全基于统计的系统发生树重建方法的代表。该方法在每组序列比对中考虑了每个核苷酸替换的概率。

最大似然法是要解决这样一个问题：给定一组数据和一个参数待定的模型，如何确定模型的参数，使得这个确定参数后的模型在所有模型中产生已知数据的概率最大。通俗一点讲，就是在什么情况下最有可能发生已知的事件。举个例子，假如有一个罐子，里面有黑白两种颜色的球，数目多少不知，两种颜色的比例也不知。我们想知道罐中白球和黑球的比例，但我们不能把罐中的球全部拿出来数。现在我们可以每次任意从已经摇匀的罐中拿一个球出来，记录球的颜色，然后把拿出来的球再放回罐中。这个过程可以重复，我们可以用记录的球的颜色来估计罐中黑白球的比例。假如在前面的一百次重复记录中，有七十次是白球，请问罐中白球所占的比例最有可能是多少？我想很多人立马有答案：70%。这个答案是正确的。可是为什么呢？（常识嘛！这还要问？！）其实，在很多常识的背后，都有相应的理论支持。在上面的问题中，就有最大似然法的支持例如，转换出现的概率大约是颠换的三倍。在一个三条序列的比对中，如果发现其中有一列为一个C，一个T和一个G，我们有理由认为，C和T所

概率论知识点总结及心得体会

概率论总结及心得体会 2008211208班 08211106号史永涛班内序号：01 目录一、前五章总结第一章随机事件和概率 (1) 第二章随机变量及其分布 (5) 第三章多维随机变量及其分布 (10) 第四章随机变量的数字特征 (13) 第五章极限定理 (18) 二、学习概率论这门课的心得体会 (20) 一、前五章总结第一章随机事件和概率第一节：1.、将一切具有下面三个特点：（1）可重复性（2）多结果性（3）不确定性的试验或观察称为随机试验，简称为试验，常用E表示。在一次试验中，可能出现也可能不出现的事情（结果）称为随机事件，简称为事件。

不可能事件：在试验中不可能出现的事情，记为Ф。必然事件：在试验中必然出现的事情，记为S或Ω。 2、我们把随机试验的每个基本结果称为样本点，记作e 或ω. 全体样本点的集合称为样本空间. 样本空间用S或Ω表示. 一个随机事件就是样本空间的一个子集。基本事件—单点集，复合事件—多点集一个随机事件发生，当且仅当该事件所包含的一个样本点出现。事件间的关系及运算，就是集合间的关系和运算。 3、定义：事件的包含与相等若事件A发生必然导致事件B发生，则称B包含A，记为B?A 或A?B。若A?B且A?B则称事件A与事件B相等，记为A＝B。定义：和事件 “事件A与事件B至少有一个发生”是一事件，称此事件为事件 A与事件B的和事件。记为A∪B。用集合表示为: A∪B={e|e∈A，或e∈B}。定义：积事件称事件“事件A与事件B都发生”为A与B的积事件，记为A∩ B或AB，用集合表示为AB={e|e∈A且e∈B}。定义：差事件称“事件A发生而事件B不发生,这一事件为事件A与事件B的差事件,记为A－B,用集合表示为 A-B={e|e∈A，e?B} 。

概率计算方法总结3

概率计算方法总结在新课标实施以来，中考数学试题中加大了统计与概率部分的考查，体现了“学以致用”这一理念. 计算简单事件发生的概率是重点，现对概率计算方法阐述如下: 一.公式法 P(随机事件)= 的结果数随机事件所有可能出现果数随机事件可能出现的结.其中P(必然事件)=1,P （不可能事件）=0；0

概率论知识点总结

概率论知识点总结基本概念随机实验：将一切具有下面三个特点：（1）可重复性（2）多结果性（3）不确定性的试验或观察称为随机试验，简称为试验，常用 E 表示。随机事件：在一次试验中，可能出现也可能不出现的事情（结果）称为随机事件，简称为事件。不可能事件：在试验中不可能出现的事情，记为Ф。必然事件：在试验中必然出现的事情，记为Ω。样本点：随机试验的每个基本结果称为样本点，记作ω、样本空间：所有样本点组成的集合称为样本空间、样本空间用Ω表示、一个随机事件就是样本空间的一个子集。基本事件多点集一个随机事件发生，当且仅当该事件所包含的一个样本点出现。事件的关系与运算（就是集合的关系和运算）包含关系：若事件A 发生必然导致事件B发生，则称B包含A，记为或。相等关系：若且，则称事件A与事件B相等，记为A＝B。事件的和：“事件A与事件B至少有一个发生”是一事件，称此事件为事件A与事件B的和事件。记为A∪B。事件的积：称事件“事件A与事件B都发生”为A与B的积事件，记为A∩ B或AB。事件的差：称事件“事件A发生而事件B不发生”为事件A 与事件B的差事件,记为 A－B。用交并补可以表示为。互斥事件：如果A，B两事件不能同时发生，即AB＝Φ，则称事件A与事件B是互不相容事件或互斥事件。互斥时可记为A＋B。对立事

件：称事件“A不发生”为事件A的对立事件（逆事件），记为。对立事件的性质：。事件运算律：设A，B，C为事件，则有（1）交换律：A∪B=B∪A，AB=BA（2）结合律： A∪(B∪C)=(A∪B)∪C=A∪B∪C A(BC)=(AB)C=ABC（3）分配律：A∪(B∩C)＝(A∪B)∩(A∪C) A(B∪C)＝(A∩B)∪(A∩C)= AB∪AC（4）对偶律（摩根律）：第二节事件的概率概率的公理化体系：（1）非负性： P(A)≥0；（2）规范性：P(Ω)＝1（3）可数可加性：两两不相容时概率的性质：（1）P(Φ)＝0（2）有限可加性：两两不相容时当AB=Φ时P(A∪B)＝P(A)＋P(B)（3）（4）P(A－B)＝P(A)－ P(AB)（5）P（A∪B）＝P(A)＋P(B)－P(AB)第三节古典概率模型 1、设试验E是古典概型, 其样本空间Ω由n个样本点组成,事件A由k个样本点组成、则定义事件A的概率为 2、几何概率：设事件A是Ω的某个区域，它的面积为 μ(A)，则向区域Ω上随机投掷一点，该点落在区域 A 的概率为假如样本空间Ω可用一线段，或空间中某个区域表示，则事件A 的概率仍可用上式确定，只不过把μ理解为长度或体积即可、第四节条件概率条件概率：在事件B发生的条件下，事件A发生的概率称为条件概率，记作 P(A|B)、乘法公式：P(AB)=P(B)P(A|B)＝P(A)P(B|A)全概率公式：设是一个完备事件组，则

概率初步知识点总结和题型

概率初步知识点和题型【知识梳理】 1．生活中的随机事件分为确定事件和不确定事件，确定事件又分为必然事件和不可能事件，其中， ①必然事件发生的概率为1，即P(必然事件)=1； ②不可能事件发生的概率为0,即P（不可能事件）=0； ③如果A为不确定事件，那么0

3．概率应用：通过设计简单的概率模型，在不确定的情境中做出合理的决策；概率与实际生活联系密切，通过理解什么是游戏对双方公平，用概率的语言说明游戏的公平性，并能按要求设计游戏的概率模型，以及结合具体实际问题，体会概率与统计之间的关系，可以解决一些实际问题。【练习】随机事件与概率：一. 选择题 1. 下列事件必然发生的是（） A. 一个普通正方体骰子掷三次和为19 B. 一副洗好的扑克牌任抽一张为奇数。 C. 今天下雨。 D. 一个不透明的袋子里装有4个红球，2个白球，从中任取3个球，其中至少有2球同色。 2. 甲袋中装着1个红球9个白球，乙袋中装着9个红球1个白球，两个口袋中的球都已搅匀。想从两个口袋中摸出一个红球，那么选哪一个口袋成功的机会较大？（） A. 甲袋 B. 乙袋 C. 两个都一样 D. 两个都不行 3. 下列事件中，属于确定事件的是（） A. 发射运载火箭成功 B. 2008年，中国女足取得冠军 C. 闪电、雷声出现时，先看到闪电，后听到雷声 D. 掷骰子时，点数“6”朝上 4. 下列事件中，属于不确定的事件的是（） A. 英文字母共28个 B. 某人连续两次购买两张彩票，均中头奖 C. 掷两个正四面体骰子（每面分别标有数字1，2，3，4）接触地面的数字和为9 D. 哈尔滨的冬天会下雪 5. 下列事件中属于不可能的事件是（） A. 军训时某同学打靶击中靶心 B. 对于有理数x，∣x∣≤0 C. 一年中有365天 D. 你将来长到4米高 6、一个袋子中放有红球、绿球若干个，黄球5个，如果袋子中任意摸出黄球的概率为0.25，那么袋子中共有球的个数为（） A. 15 B. 18 C. 20 D. 25 用列举法求概率：填空题：

面向微博热门话题的主客观分类方法研究

面向微博热门话题的主客观分类方法研究【摘要】：随着Web2.0的快速发展,互联网的载体已经不仅仅是单一的电脑,手机、平板电脑等移动终端已经悄然进入了人们的视野。人们获取、分享信息也不单单通过社区、博客,而是能够随时随地发表微博,实现即时分享。微博用户的大幅度增长吸引了一大批学者对其发表言论进行研究,面向微博热门话题的主客观分类问题是其中的重要课题之一。到目前为止,国内外学者主要针对无话题的微博文本进行研究,而面向热门话题的微博文本研究尚处于起步阶段。热门话题下的微博言论文本具有话题分散性,即用户发表的言论常常与当前的热门话题不相关,这个现象会导致针对微博热门话题的主客观分类方法准确率不高。基于此,本文将面向微博热门话题的主客观分类问题看成是两个子问题——话题相关性分类子问题和主客观分类子问题,对两个子问题独立建模,再使用Logistic回归对两个结果集建模,得出当前热门话题下的主观性观点表达。本文的主要研究内容如下：(1)研究了基于同义词词林的话题相关度计算方法。在话题相关性分类子问题中,主要研究当前微博语料是否与所关注的热门话题相关,如何度量两者之间的相关程度是此问题的关键之处。本文以同义词词林扩展版作为资源,通过计算当前词与热门话题词的距离来刻画两者之间相关程度,以此来简化话题相关度的计算方法。(2)研究了基于汉语框架语义网生成有效观点词集的方法。在主客观分类判断子问题中,主要是判断当前微博是否属于主观观点表达。其中构建有效的观点词集是

该问题中重要的步骤之一。本文利用汉语框架语义网中框架间关系和词元,以“观点”框架内词元为种子集,构建了有效的观点词集。(3)研究了将话题相关性模型结果和主客观分类模型结果统一的方法,使用Logistic回归模型将两重结果统一在一个模型下,得到热门话题下的主观文本。(4)本文使用无话题相关性分类的主客观分类方法作为Baseline,并与多分类主客观分类方法与分步主客观分类方法进行对比分析。分析了使用Logistic回归模型并行融合话题相关性分类结果与主客观分类结果的重要性。【关键词】：热门话题主客观分类话题相关性分类Logistic回归模型【学位授予单位】：山西大学【学位级别】：硕士【学位授予年份】：2013 【分类号】：TP393.092;TP391.1 【目录】：摘要4-6Contents6-8中文摘要8-9ABSTRACT9-11第一章绪论11-171.1研究背景及意义11-131.2国内外研究现状13-141.3本文研究内容14-151.4论文组织结构15-17第二章问题描述及相关资源17-232.1面向微博热门话题的主客观分类问题描述17-182.1.1话题相关性分类子问题描述182.1.2主客观分类子问题描述182.2相关资源18-212.2.1同义词词林及扩展版18-192.2.2汉语框架语义网19-212.3

港口吞吐量概率预测模型研究

２００７年４月第４期总第４０１期水运工程Ｐｏｎ＆Ｗａｔｅ刑ａｙＥｎｇｉｎｅｅｒｉｎｇＡｐｒ．２００７Ｎｏ．４ＳｅｒｉａｌＮｏ．４０１ ?港口? 港口吞吐量概率预测模型研究袁洪春，谢耀峰（东南大学交通学院，江苏南京２１００９６）摘要：为了模拟港口重叠腹地货运流向情况，并对新建港口吞吐量进行合理预测，引入了概率交通方式预测模型并对其进行改进，且在此基础上建立了负指数货运量概率预测模型。将该模型应用于徐州地区新建港区的货运量分析，预测结果表明新模型具有一定的实用性，可以为港口规划和建设规模的确定提供重要参考。关键词：重叠腹地；吞吐量；概率预测模型；货运量分析；建设规模中图分类号：Ｕ６５２．１文献标识码：Ａ文章编号：１００２—４９７２（２００７）０４—００２８—０３ｏｎＰｏｒｔ’ｓＴｈｒｏｕｇｈｐｕｔＰｒｏｂａｂｍｔｙＦｏｒｅｃａｓｔｉｎｇＭｏｄｅｌＹＵＡＮＨｏｎｇ—ｃｈｕｎ，ＸＩＥＹａｏ—ｆｅｎｇ（ＣｏｌｌｅｇｅｏｆＴｍｎｓｐｏｒｔａｔｉｏｎ，ＳｏｕｔｈｅａｓｔＵｎｉｖｅｒｓｉｔｙ，Ｎａｎｊｉｎｇ２１００９６，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：Ｔｏｓｉｍｕｌａｔｅｔｈｅｎｏｗｄｉｒｅｃｔｉｏｎｏｆｆｂ培ｈｔｉｎｃｒｏｓｓｉｎｇｈｉｎｔｅｄａｎｄａｎｄｆｏｒｅｃａｓｔｔｈｒｏｕｇｈｐｕｔｏｆｓｏｍｅｎｅｗｌｙｂｕｉｌｔｐｏｒｔｓ，ｐｒｏｂａｂｉｌｉｔｙｍｏｄｅｌｆｏｒｔｒａｎｓｐｏｒｔａｔｉｏｎｍｅａｎｓｉｓｉｎｔｒｏｄｕｃｅｄａｎｄｒｅＶｉｓｅｄ，ａｎｄｎｅｇａｔｉＶｅｅｘｐｏｎｅｎｔｐｒｏｂａｂｉｌｉｔｙｍｏｄｅｌｉｓｅｓｔａｂｌｉｓｈｅｄｂａｓｅｄｏｎｉｔ．ＴｈｅａｎａｌｙｚｉｎｇｒｅｓｕｌｔｆｏｒｆｒｅｉｇｈｔＶｏｌｕｍｅｏｆＸｕｚｈｏｕｎｅｗｌｙｂｕｉｌｔｐｏｒｔｂｙｔｈｅｍｏｄｅｌｒｅｖｅａｌｓｔｈａｔｔｈｅｍｏｄｅｌｉｓｐｒａｃｔｉｃａｌａｎｄｔｈｕｓｍａｙｓｅｒｖｅａｓａｎｉｍｐｏｒｔａｎｔｒｅｆｅｒｅｎｃｅｆｏｒｐｏｒｔｐｌａｎｎｉｎｇａｎｄｄｅｔｅ珊ｉｎａｔｉｏｎｏｆｔｈｅｃｏｎｓｔｍｃｔｉｏｎｓｃａｌｅ．ＫｅｙｗＯｒｄｓ：ｃｒｏｓｓｉｎｇｈｉｎｔｅｄａｎｄ；ｔｈｒｏｕｇｈｐｕｔ；ｐｒｏｂａｂｉｌｉｔｙｆｏｒｅｃａｓｔｉｎｇｍｏｄｅｌ；ｆｋｉｇｈｔｖｏｌｕｍｅａｎａｌｙｓｉｓ；Ｐｎｎ乌ｔ１１ｌｃｔｉｎｎｓｃａｌｅ随着政府加大对水运建设的投资力度，很多地区兴建港口。这就需要分析港口投资盈利并合理确定港口建设规模，吞吐量预测为其中的重要环节。目前，很多情况下吞吐量预测仅仅是区域货物生成量的定性预测，没有考虑邻近港口对其的货物分流影响。本文通过建立负指数货运量概率预测模型，尝试根据区域货运生成量来确定新建港口在重叠腹地占有货源的份额，进而得到更为合理的预测吞吐量。１概率交通方式预测模型基本原理及改进概率交通方式预测模型基本原理是：假定交通方式选择是以各种交通方式所需时间、费用等阻抗参数Ⅲ为基础，以一定的概率关系进行分析。将该模型中的交通方式的阻抗转变成货源地至港口码头的阻抗函数．即可用于交通区域货源量分配预测。阻抗函数是反映交通区间便利程度的指标。在用于港口腹地流量模拟时，考虑港口的费用以及作业时间在整个货运过程中占有较大比重，必须对阻抗函数加以改进，建立港口偏好系数可以很好地解决该问题。结合（到达）港前的广义运输费用，研究得到模型的阻抗函数一广义费用值（图１）。广义费用结构由港前广义运输费用和港口系数２个主要参数构成。１．１港前广义运输费用广义运输费用主要是指货物运输过程中发生收稿日期：２００６—１ｌ一２７作者简介：袁洪春（１９８３一），男，硕士研究生，研究方向为港口规划。　万方数据

通俗理解LDA主题模型

通俗理解LDA主题模型 0 前言印象中，最开始听说“LDA”这个名词，是缘于rickjin在2013年3月写的一个LDA科普系列，叫LDA数学八卦，我当时一直想看来着，记得还打印过一次，但不知是因为这篇文档的前序铺垫太长（现在才意识到这些“铺垫”都是深刻理解LDA 的基础，但如果没有人帮助初学者提纲挈领、把握主次、理清思路，则很容易陷入LDA的细枝末节之中），还是因为其中的数学推导细节太多，导致一直没有完整看完过。 2013年12月，在我组织的Machine Learning读书会第8期上，@夏粉_百度讲机器学习中排序学习的理论和算法研究，@沈醉2011 则讲主题模型的理解。又一次碰到了主题模型，当时貌似只记得沈博讲了一个汪峰写歌词的例子，依然没有理解LDA到底是怎样一个东西（但理解了LDA之后，再看沈博主题模型的PPT会很赞）。直到昨日下午，机器学习班第12次课上，邹讲完LDA之后，才真正明白LDA原来是那么一个东东！上完课后，趁热打铁，再次看LDA数学八卦，发现以前看不下去的文档再看时竟然一路都比较顺畅，一口气看完大部。看完大部后，思路清晰了，知道理解LDA，可以分为下述5个步骤： 1. 一个函数：gamma函数 2. 四个分布：二项分布、多项分布、beta分布、Dirichlet分布 3. 一个概念和一个理念：共轭先验和贝叶斯框架 4. 两个模型：pLSA、LDA（在本文第4 部分阐述） 5. 一个采样：Gibbs采样本文便按照上述5个步骤来阐述，希望读者看完本文后，能对LDA有个尽量清晰完整可以定义为一篇学习笔记或课程笔记，当然，后续不断加入了很多自己的理解。若有任何问题，欢迎随时于本文评论下指出，thanks。

数学建模_四大模型总结

四类基本模型 1 优化模型 1.1 数学规划模型线性规划、整数线性规划、非线性规划、多目标规划、动态规划。 1.2 微分方程组模型阻滞增长模型、SARS 传播模型。 1.3 图论与网络优化问题最短路径问题、网络最大流问题、最小费用最大流问题、最小生成树问题(MST)、旅行商问题(TSP)、图的着色问题。 1.4 概率模型决策模型、随机存储模型、随机人口模型、报童问题、Markov 链模型。 1.5 组合优化经典问题 ● 多维背包问题(MKP) 背包问题：n 个物品，对物品i ，体积为i w ，背包容量为W 。如何将尽可能多的物品装入背包。多维背包问题：n 个物品，对物品i ，价值为i p ，体积为i w ，背包容量为W 。如何选取物品装入背包，是背包中物品的总价值最大。多维背包问题在实际中的应用有：资源分配、货物装载和存储分配等问题。该问题属于NP 难问题。 ● 二维指派问题(QAP) 工作指派问题：n 个工作可以由n 个工人分别完成。工人i 完成工作j 的时间为ij d 。如何安排使总工作时间最小。二维指派问题（常以机器布局问题为例）：n 台机器要布置在n 个地方，机器i 与k 之间的物流量为ik f ，位置j 与l 之间的距离为jl d ，如何布置使费用最小。二维指派问题在实际中的应用有：校园建筑物的布局、医院科室的安排、成组技术中加工中心的组成问题等。 ● 旅行商问题(TSP) 旅行商问题：有n 个城市，城市i 与j 之间的距离为ij d ，找一条经过n 个城市的巡回（每个城市经过且只经过一次，最后回到出发点），使得总路程最小。 ● 车辆路径问题(VRP) 车辆路径问题（也称车辆计划）：已知n 个客户的位置坐标和货物需求，在

概率论中几种概率模型方法总结

概率论中几种概率模型方法总结绪论：概率论中几种常用的概率模型是古典概型、几何概型、贝努里概型.本文对概率论中几种概率模型方法进行了总结。 1 古典概型古典概型及其概率是概率论的基础知识,它既是进一步学习概率的基础,下面就一些典型事件的分析来说明古典概型的概率计算方法。古典概型的概率计算可以分为三个步骤:确定所研究的对象为古典概型;计算样本点数;利用公式计算概率。即如果随机试验只有有限个可能结果,而且每一个可能结果出现的可能性相同,那么这样的随机试验就是古典概型问题。若设Ω是一个古典概型样本空间, 则对任意事件A 有: A m P ( A ) ==Q n 中的样本点数中的样本点数。在计算m 和n 时,经常使用排列与组合计算公式。在确定一个试验的每个基本事件发生的可能性相同时,经常根据问题本身所具有的某种“对称性”,即利用人们长期积累的关于“对称性”的实际经验,认为某些基本事件发生的可能性没有理由偏大或偏小。关于古典概型的数学模型如下: 1.1 袋中取球问题 1.1.1 随机地同时从袋中取若干球问题随机地同时从袋中取若干球问题是古典概型中的一类最基本问题,其特点是所考虑的事件中只涉及球的结构而不涉及取球的先后顺序,计算样本点数时只需考虑组合数即可。概率中的很多问题常常可以归结为此类问题来解决。事件1 一袋中有m + n 个球,其中m 个黑球, n 个白球,现随机地从袋中取出k 个球( k ≤m + n) ,求其中恰好有l 个白球( l ≤n)的概率。分析:随机地从袋中取出k 个球有k m+n C 种可能的结果,其中“恰好有l 个白球”这一事件包含了l k-l n m C C 种结果,因此所求概率为l k - l n m k m + n C C P =C 这个结论可以作为一个公式来应用。用它可以解决一些类似的问题。 1.1.2 随机地从袋中不放回地取球若干次随机地从袋中不放回地取球若干次就是指随机地从袋中每次只取一个球,取后不再放回袋中,连续进行若干次。这样的取球过程实际上是按顺序取的,所考虑的事件也会涉及到取球的顺序,所以要用排列数计算样本点数。事件2 一袋中装有m + n 个球,其中m 个黑球, n 个白球,现随机地从中每次取出一

超几何和二项分布概率模型总结

高考理科数学知识归纳——概率一．离散型随机变量的期望(均值)和方差 X 1x 2x … n x P 1p 2p … n p 1. 其中，120,1,2,...,,...1i n p i n p p p ≥=+++=，则称112 2...n n x p x p x p +++为随机变量X 的均值或X 的数学期望，记为()E X 或μ．数学期望 ()E X =1122...n n x p x p x p +++ 性质（1）()E c c =；（2）()()E aX b aE X b +=+．（,,a b c 为常数） 2. 2221122()()...()n n x p x p x p μμμ-+-++-，（其中120,1,2,...,,...1i n p i n p p p ≥=+++=）刻画了随机变量X 与其均值 μ的平均偏离程度，我们将其称为离散型随机变量X 的方差，记为()D X 或2σ．方差2221122()()...()n n DX x p x p x p μμμ=-+-++- 2．方差公式也可用公式22221()()n i i i D X x p EX EX μ==-=-∑计算． 3．随机变量X 的方差也称为X 的概率分布的方差，X 的方差()D X 的算术平方根称为X 的标准差，即 ()D X σ=． 1.设X 是一个离散型随机变量，其分布列如下表，试求EX ，DX 。 X －1 0 1 P 9 5 对一般情形，一批产品共N 件，其中有M 件不合格品，随机取出的n 件产品中，不合格品数X X 0 1 2 … l P 0n M N M n N C C C - 11n M N M n N C C C -- 22n M N M n N C C C -- … l n l M N M n N C C C -- 其中min(,)l n M =