返回首页

数据挖掘三部曲(数据挖掘导论)

来源:www.xuniwu.cn   时间:2022-12-19 09:33   点击:173  编辑:admin   手机版

1. 数据挖掘导论

《人工智能导论》复习知识点

 

选择题知识点

1.人工智能、人工神经网络、机器学习等人工智能中常用词的英文及其英文缩写。

人工智能Artificial Intelligence,AI

人工神经网络Artificial Neural Network,ANN

机器学习Machine Learning,ML

深度学习Deep Learning,DL

2.什么是强人工智能?

强人工智能观点认为有可能制造出真正能推理(Reasoning)和解决问题(Problem_solving)的智能机器,并且,这样的机器将被认为是有知觉的,有自我意识的。可以独立思考问题并制定解决问题的最优方案,有自己的价值观和世界观体系。有和生物一样的各种本能,比如生存和安全需求。在某种意义上可以看作一种新的文明。

3.回溯算法的基本思想是什么?

能进则进。从一条路往前走,能进则进,不能进则退回来,换一条路再试。

4.面向对象、产生式系统、搜索树的定义?

面向对象(Object Oriented)是软件开发方法,一种编程范式。面向对象的概念和应用已超越了程序设计和软件开发,扩展到如数据库系统、交互式界面、应用结构、应用平台、分布式系统、网络管理结构、CAD技术、人工智能等领域。面向对象是一种对现实世界理解和抽象的方法,是计算机编程技术发展到一定阶段后的产物。面向对象是相对于面向过程来讲的,面向对象方法,把相关的数据和方法组织为一个整体来看待,从更高的层次来进行系统建模,更贴近事物的自然运行模式。

把一组产生式放在一起,让它们相互配合,协同工作,一个产生式生成的结论可以供另一个产生式作为前提使用,以这种方式求得问题的解决的系统就叫作产生式系统。

对于需要分析方法,诸如深度优先搜索和广度优先搜索(穷尽的方法)以及启发式搜索(例如最佳优先搜索和A*算法),这样的问题使用搜索树表示最合适。

5.机器学习的基本定义是什么?

机器学习是一门研究及其获取新知识和新技能,并识别现有知识的学问。

6.智慧地球的概念,智慧地球提出的背景是怎样的?

借助新一代信息技术(如传感技术、物联网技术、移动通信技术、大数据分析、3D打印等)的强力支持,让地球上所有东西实现被感知化、互联化和智能化。

背景为金融危机影响全球。

7.相关关系是怎么回事?

相关关系是客观现象存在的一种非确定的相互依存关系,即自变量的每一个取值,因变量由于受随机因素影响,与其所对应的数值是非确定性的。相关分析中的自变量和因变量没有严格的区别,可以互换。

8.盲目搜索是什么意思?

盲目搜索方法又叫非启发式搜索,是一种无信息搜索,一般只适用于求解比较简单的问题,盲目搜索通常是按预定的搜索策略进行搜索,而不会考虑到问题本身的特性。常用的盲目搜索有宽度优先搜索和深度优先搜索两种。

填空题知识点。

1. Wiener 在智能活动领域的理论贡献?

创立控制论,开创了一个全新的学科“控制科学”(Control Science),也开创了人工智能中的行为主义学派。

2.常见的盲目搜素算法有哪些?

常用的盲目搜索有宽度优先搜索和深度优先搜索两种。

3.最佳优先搜索算法?

最佳优先搜索(Best First Search),是一种启发式搜索算法(Heuristic Algorithm),我们也可以将它看做广度优先搜索算法的一种改进;最佳优先搜索算法在广度优先搜索的基础上,用启发估价函数对将要被遍历到的点进行估价,然后选择代价小的进行遍历,直到找到目标节点或者遍历完所有点,算法结束。

4.大类来分,主要有哪三类机器学习算法?

监督学习、无监督学习、强化学习

5.监督学习的主要类型?

分类和回归,详见书上127页

6.人工智能之父是指?图灵测试的含义?

图灵。它的意义在于推动了计算机科学和人工智能的发展。

7.大数据时代,相关性和因果性的异同?

异:因果关系很难被轻易证明,但证明相关关系实验耗资少,费时也少。

同:相关关系为研究因果关系奠定了基础。

8.产生式系统的形式规则集怎样表示的?

IF[条件]THEN[动作]

9.机器学习算法都是基于什么理论的?

机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。

3.简答题知识点

1.大数据时代的思维转变?

1.样本=总体

2.接受数据的混杂性

3.数据的相关关系

2.人工智能领域的主要应用有哪些?

深度学习、自然语言处理、计算机视觉、智能机器人、自动程序设计、数据挖掘

3.知识表示法有哪些?

叙述式表示法、过程式表示法

4.线性回归与逻辑回归的比较。

参考一:在线性回归模型中,输出一般是连续的, 对于每一个输入的x,都有一个对应的输出y。因此模型的定义域和值域都可以是无穷。

但是对于逻辑回归,输入可以是连续的[-∞, +∞],但输出一般是离散的,通常只有两个值{0, 1}。

参考二:逻辑回归的模型 是一个非线性模型,sigmoid函数,又称逻辑回归函数。但是它本质上又是一个线性回归模型,因为除去sigmoid映射函数关系,其他的步骤,算法都是线性回归的。可以说,逻辑回归,都是以线性回归为理论支持的。

只不过,线性模型,无法做到sigmoid的非线性形式,sigmoid可以轻松处理0/1分类问题。

5.人工智能时代的重要工作岗位。

数据科学家、机器学习工程师、数据标签专业人员、AI硬件专家、数据保护专家

6.为什么在大数据时代更关注相关关系?

相关关系实验耗资少、费时也少。为我们提供新的视角,而且提供的视角都很清晰。

7.语义网络如何理解?

语义网络是知识表示中最重要的通用形式之一,是一种表达能力强而且灵活的知识表示方法。它通过概念及其语义关系来表达知识的一种网络图。

8.神经元与神经网络的关系?神经元的工作原理。

关系:神经网络从这种自然典范中汲取灵感,设计人工神经网络。

原理:神经元由一个细胞体和突两部分组成。突分两类,轴突和树突。 树突和轴突共同作用,实现神经元之间的信息传递。

轴突的末端与树突进行进行信号传递的界面成为突触,通过突触向其他神经元发送信息。学习发生在突触附近,而且突触把经过一个神经元轴突的脉冲转化为下一个神经元的兴奋信号或抑制信号。

对某些突触的刺激促使神经元触发,只有神经元所有输入的总效应达到阈值电平,它才开始工作。

综合应用题的知识点

1.常用的机器学习算法有哪些?各自的特点和适用领域是怎样的?

回归算法:是最快速的机器算法之一,分类,预测离散值。

KNN算法:最基础和简单的算法之一,用于分类,比较数据点的距离,并将每个点分配给它最接近的组。

决策树算法:将一组“弱”学习器集合在一起,形成一种强算法。主要用来分类,也有做回归,但更多的是作为弱分类器,用在model 

贝叶斯算法:通过找到样本所属于的联合分步,然后通过贝叶斯公式,计算样本的后验概率。用于文本分析、分类

聚类算法:发现元素之间的共性并对它们进行相应的分组。

神经网络算法:通过找到某种非线性模型拟合数据,主要用在图像处理等

2.专家系统的概念、结构、各模块的作用怎样?。

专家系统是一种模拟人类专家解决领域问题的计算机程序系统。

人机交互界面、知识库、推理机、解释器、综合数据库、知识获取

人机界面:系统和用户进行交流的界面

知识库:存放专家提供的知识

推理机:对当前问题的条件或已知消息,仿佛匹配知识库中的规则,获取新理论,以得到问题求解结果

解释器:能根据用户的提问,对结论、求解过程做出说明

综合数据库:专门用于存储推理过程中所需要的原始数据、中间结果和最终结论

2. 数据挖掘导论期末考试试题与答案

专业名称:数据科学与大数据技术

专业代码:080910

门类:工学

专业类:计算机类

数据科学与大数据技术是个交叉性很强的专业,很难说完全归属于哪个独立的学科。所以,不同的学校有的是信息学院申报,有的是计算机学院牵头申报,有的设在统计学院,还有的在经管学院。像北京大学这个专业是放在理学下,授予理学学位。大多数是设在工学计算机门类下,授予的是工学学位。

3. 数据挖掘导论第五章课后答案

1956年正式提出人工智能

20世纪三大科学技术成就

人工智能

原子能技术

空间技术

智能的特征

(1)感知能力

(2)记忆与思维能力(会思考)【逻辑思维】【形象思维】【动物思维】(灵感思维)

(3)学习能力

(4)行为能力(输出能力)

人工智能的定义 :用人工的方法在机器(计算机)上实现的智能

人工智能研究的内容

1知识表示(将人类的知识表示模型化,形象化) 【通用】

(1)符号表示法 谓词 专家系统

(2)连接机制表示法 神经网络

2 机器感知 (机器视觉,机器听觉)【机器提东西】

3机器思维(提取知识)

4机器学习(通过大数据学习)

5机器行为

人工智能的主要研究领域

1自动定理证明

归结原理 吴方法

2博弈(下棋)

3模式识别

4机器视觉

5自然语言的理解(语言的翻译,语言的理解,小度,小爱)

6智能信息检索

7数据挖掘与知识发现(淘宝推送)

8专家系统(医疗上,由相关zheng)

9自动程序设计

10机器人

11组合优化问题(调度,合理智能交通)

12人工神经网络

13分布式人工智能与多智能体

14智能控制

15智能仿真

16智能教学(售后服务)

17智能管理和智能决策

4. 数据挖掘导论第七章课后答案

knn,最近邻算法,可以用来进行分类,回归,检索等任务。其思想是,对于任意n维输入向量,分别对应于特征空间中的一个点,输出为该特征向量所对应的类别标签或预测值。

很对基础的机器学习或数据挖掘书籍都有所介绍,推荐李航的《统计学习方法》,以及《数据挖掘导论》等。

5. 数据挖掘导论第八章课后答案

背景:

属性集和类变量之间的关系是不确定的,其一,噪声数据的干扰;其二,出现某些影响分类的因素没有包含在属性集中。

因此,出现一种对属性集和类变量的概率关系建模的方法。贝叶斯定理是把类的先验知识和从数据中收集的新证据相结合的统计原理。它可以通过先验概率、类条件概率和证据来表示后验概率。

条件概率的m估计(P144),当样例较少时,m估计通常是一种更加健壮的估计方法。

6. 数据挖掘导论第六章课后答案

大数据专业好。

这里只谈数学专业和大数据专业的比较:

大数据专业,提现在应用,我想它的内容会包含跟大数据有关的课程,比如概论,数统,回归分析,数据挖掘,精算,模型分析,SARS或SPSS应用等等。其目的在于,尽可能的从各种角度整理、挖掘数据背后的潜在价值信息,为决策提供理性的有力的方向和支撑。

为了好理解,不妨把大数据专业要解决的问题,比做为“在河沙里淘金”。于是,它所包含的各学科就是“淘金”涉及的工具及说明书,于是,概论和数统就像操作流程说明,是理论指导;数据挖掘就成了类似过滤筛选的工具,并给出详细说明。再简单些,就是这个学科是挖机,专门挖沙的,那个学科是过滤机器,专门过滤的,另一学科是盆钵,专门盛金子的等等。

大数据专业就是这么一类,教你使用一批工具,完成一件事,解决一个问题的专业。

而数学专业,字面讲,它以数学为中心。而数学是所有自然学科的工具,是宇宙通用语言。

简单的讲,就是她会告诉你如何研究制造各种各样的工具。你修车,需要扳手,螺丝刀,千斤顶等等。她是这些工具的制造厂。

数学专业旨在解决数学的延拓与发展,而数学本身是逻辑的,理性的,分析的语言,语言是沟通交流解决问题的工具,所以,她其实是在拓展人类的思想武器,武装更先进的设备,为人类社会各行各业提供应用工具。

以上看,大数据专业所涉及的种种工具,只是数学这个大工厂的一小小部分。数学还为物理提供理论基石,没有数学骨架支撑的物理,只是不能被应用,不能被理解的思想。数学还未天文学,化学,生物等提供理论分析工具。

总的讲,大数据专业,是部分工具的应用说明,并以此组合解决数据信息问题。而数学专业,是研究如何生产制造工具的专业,没有她,生产力不会进步。就像古人伐木,靠斧头 ,后来靠人工锯齿,而今,电锯。这是质的飞跃。

顶一下
(0)
0%
踩一下
(0)
0%