物联网真正要智能化,必须仰赖以“机器学习”为主的分析(2)
关键词: 人工智能 机器学习
分享到: QQ空间 新浪微博 腾讯微博 人人网 微信
我要发布文章
2、非监督式学习:不提供人为定义标签(如销售/天),系统需要自己去分析探索关键因素。它主动提供所有对分析相关的数据,而让系统去主动识别不那么明显的相关性,例如,价格折扣、本地事件和天气状态(例如:下雨与否)都可能影响自动贩卖机的销售数量。常见的非监督式学习法包含有主成份分析、关联规则学习、分群算法及同样是最红火的深度学习法。
按照Industrial Internet Consortium (IIC)提出的Industrial Internet Reference Architecture (IIRA)的定义,一个物联网应用方案可以分成三个层次:各项硬件传感器的硬件层、串连硬件层与企业层的平台层、企业层。
物联网中设备记录文件(Machine log)以及传感器产生的数据由硬件层中的网关收集转换,经由网络传入位于云端或是企业内部私有云中的数据分析系统,数据分析的前端模块执行实时串流数据处理,由于每个单位时间都持续由硬件层中的分散的设备节点动态产生大量数据,因此前端模块必须具有实时接收处理串流数据的能力,此时数据可经由分散处理的分析引擎与分散储存的数据库达成计算资源动态规划支持。
在数据分析系统数据处理过程需进行数据清理,异质性数据汇整等数据前处理工作,关于异质性数据分析将另以专文说明。
这里可参考以下工作原则进行:
(1)补足原始数据不完整的字段,如时间位置或说明。
(2)同时过滤有错误的数据。
(3)并且对数据的单位和坐标进行转换。
(4)几种基本的分析模式也可以在此阶段运行,如加总、相关性。
(5)同时生成并处理事件。这些结果倒入控制面板(Dashboard)以图像化的方式呈现给用户。
(6)处理后的数据置于数据库中长期保存以利后续的进一步分析。较为复杂的预测建模分析需要统计机率建模与机器学习,则采批次分析模块进行。
预测建模分析核心精神是基于统计模型的回归分析模式,采用大量历史数据提供建模,同时需要引入许多的外部数据,例如产业领域知识,供机器学习中特征工程使用。文字以及影像等非结构化数据特性则另外借助特定模块处理,产生对应的半结构化数据以供后续建模所需特征工程使用。目前物联网数据分析的来源数据可能包含厂房设备的状态例如输入电流、震动,环境因素如温度、影像和语言文字,或是用户行为等在线的数据。同时导入多种外部信息用以辅助数据分析,例如政府公开资料、天气温湿度、新闻事件、大众舆论、人机互动等交互使用。
因此好的数据分析系统应具备以下几个重要特征:
(1)在领域专家协助下,基于场域知识库建设需求,以规则与事例建构专家系统,以自动化的规则处理方法以汇整运用大量的知识。
(2)统计专家结合领域知识对数据探索分析,然后进行特征工程抽取出适当的特征,导入机器学习,先进的非监督学习算法可以自动化分析得到带有最多信息量的特征,应用于预测建模过程特征工程使用。
(3)机器学习:实作并整合各种算法,持续评估运算效能,以统计采样验证模型的精确度,自动化混合多种算法并且调整参数,达到优化的预测结果。
数据分析系统除了实作各种机器学习的算法,为了满足不同产业、不同场域或主题的物联网应用方案,还需要因应不同产业或场域应用提出不同评估验证方式,以确保或提升各种预测建模方法的预测精确度和适用性。现阶段期待一个数据分析与预测系统能够通用性地解决各行各业、各别厂商数据分析需求。
例如:应用于在线串流数据实时分析、进而预测即将发生的设备异常状态诊断、或是产能设备参数优化、以及订制化生产的配方提供,恐怕还需等若干年后数据分析方法有更突破性进展才有可能实现。因为单靠机器学习虽然可达到一定的效果,仍旧有学习成效上限存在,目前业界采用的方法是除了机器学习外,再搭配领域专家根据领域知识来制定相关有效的规则来辅助机器学习,或需数据科学家分析大量的数据后所得出的有用信息回馈给机器学习,以求达到更高效的均衡问题解决方案。
(责任编辑:ioter)
上一页 | 2/3 | 下一页 |
查看评论 回复