建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?()
A.建模描述
B.根据内容检索
C.寻找模式和规则
D.预测建模
A.建模描述
B.根据内容检索
C.寻找模式和规则
D.预测建模
为了确定避孕套的使用在降低有性行为的高中生之间传播性疾病的有效性,一个简单的模型为
其中, inf rate表示有性行为的学生中感染性病的比例, con use表示声称合理地使用了避孕套的男孩子比例,avg inc表示平均家庭收入, 而city则是一个表示所在学校是否处在城里的虚拟变量; 这个模型是在学校这个层次上做的。
(i)在因果性和其他条件不变的模式下解释上述方程,β1的符号应该是什么?
(ii)为什么inf rate和com se可能是联合决定的?
(iii)如果避孕套使用率随着性病感染率的上升而提高,所以在下式中
(iv)令aris表示一个二值变量,若学校有分发避孕套项目则取值1.解释这如何用于通过Ⅳ估计β1(和其他系数)。我们必须在每个方程中对concis做怎样的假定?
回归模型中存在多重共线性,你如何解决这个问题()
1.去除这两个共线性变量
2.我们可以先去除一个共线性变量
3.计算VIF(方差膨胀因子),采取相应措施
4.为了避免损失信息,我们可以使用一些正则化方法,比如,岭回归和lasso回归
A.1
B.2
C.2和3
D.2,3和4
A.零成本:可以直接从OMCR收集到移动统计数据
B.快速:使用2-3天的移动统计即可建立干扰模型,天数多会更精确些
C.准确:通过对移动统计数据的充分利用,创建一个真正体现当前蜂窝网络情况的数学模型
D.根据DT测试或者地理信息进行估计
利用TRAFFIC2.RAW中的数据。
(i)计算变量prefat的一阶自相关系数。你认为prefat包含单位根吗?失业率也一样吗?
(i)估计一个将prcfat的一阶差分Aprcfat与第10章的计算机练习C11第(vi)部分中同样变量相联系的多元回归模型,只是你还应该对失业率进行一阶差分。于是,模型中包含一个线性时间趋势、月度虚拟变量、周末变量和两个政策变量;不要将这些变量进行差分。你发现了什么有意思的结论吗?
(iii)评论如下命题:“在进行多元回归之前,我们总应该将怀疑具有单位根的时间序列进行一阶差分,因为这样做是一种安全策略,而且应该得到与使用水平值类似的结论。”[在回答这个问题时,最好先做(如果你还没有做过的话)第10章的计算机练习C11第(vi)部分中的回归。]
如下模型使得受教育回报还取决于父母双方受教育程度的总和pareduc:
如果某人父母总的教育年限为32年,那么他的教育回报比父母教育年限为24的人高百分之多少?这个差异在统计上显著吗?
(iii)如果在方程中将pareduc作为一个独立变量引入,则得到
现在教育回报如何依赖于父母的受教育水平?找到双侧p值来检验原假设:教育回报取决于父母的受教育水平。你能得到什么结论?
利用MEAP00 O1中的数据回答本题。
(i)使用OLS估计模型
并用通常的格式报告你的结论。在5%的显著性水平上,每个解释变量都是统计显著的吗?
(ii)求出第(i) 部分中回归的拟合值。拟合值的取值范围是多少?它与math4的实际数据取值范围相比如何?
(iii)求出第(i)部分中回归的残差。哪类学校具有最大的(正)残差?对这个残差给予解释。
(iv)在方程中增加所有解释变量的平方项,检验它们的联合显著性。你会把它们放到模型中吗?
(v)回到第(i)部分中的模型,将因变量和每个解释变量都除以各自的样本标准差,并重新进行回归。(除非你还将每个变量分别减去了各自的均值,否则还应该包括一个截距项。)以标准差为单位,哪个解释变量对数学考试通过率具有最大的影响?