通信人家园

 找回密码
 注册
搜索
热搜: 家园 活动

军衔等级:

  列兵

注册时间:
2017-2-23
发表于 2018-3-7 15:26:37 |显示全部楼层
  当今时代,大数据已经渗透到每一个行业和业务职能领域:政务管理、金融风控、教育科研、媒体出版、公共安全等,成为重要的生产因素。对海量数据的挖掘与运用,将预示着新一波生产率的增长与企业行业竞争优胜劣汰的制胜武器。
  大数据的挖掘与运用将给我们带来什么?
  首先,信息的获取。传统人工整理的“精品”知识时代已经不能满足新时代多样化而专业化的知识需求,大数据精准采集技术能够自动挖掘海量的互联网信息资源。其次,信息的分析与挖掘。自然语言理解技术的发展,让机器像人一样理解我们自己的语言。通过浅层、深层的文本挖掘,重塑数据价值。最后,服务与应用。基于大数据语义智能挖掘的应用方案正在各行各业落地,媒体出版的知识挖掘,公共安全的犯罪预测,科技领域的情报分析,金融领域的风控调查、社交媒体的网络舆情与教育科研的人工智能培训等。当然,大数据语义智能挖掘能做的,还有更多!
  NLPIR大数据语义智能挖掘平台,针对大数据内容处理的需要,融合了网络精准采集、自然语言理解、文本挖掘和网络搜索的技术,提供了客户端工具、云服务、二次开发接口。
  NLPIR-Parser是基于大数据语义智能挖掘平台,专门针对大数据文本进行采集、处理和加工的软件系统,提供了中间件处理效果的可视化展示,也可以作为大规模数据的处理加工工具。用户可以使用该软件对自己的数据进行处理。
  NLPIR大数据语义智能挖掘平台的十三大功能:
  1.精准采集:对互联网信息的实时精准采集,用户只需要提供关键词或站点网址,系统便可帮助用户快速获取信息。系统支持境外信息的采集。
  2.文档抽取:对多种主流文档的信息抽取功能,文档类型包括:doc、excel、pdf与ppt。不管用户的文本信息是什么类型,系统都能快速进行信息抽取,进行格式归一化处理。
  3. 新词发现:从文件集合中挖掘出内涵的新词语列表,可以用于用户专业词典的编撰;还可以进一步编辑标注,导入分词词典中,从而提高分词系统的准确度,并适应新的语言变化。关键词提取能够对单篇文章或文章集合,提取出若干个代表文章中心思想的词汇或短语,可用于精化阅读、语义查询和快速匹配等。
  4. 批量分词:对原始语料进行分词、自动识别人名地名机构名等未登录词、新词标注以及词性标注。并可在分析过程中,导入用户定义的词典。
  5. 语言统计:针对切分标注结果,系统可以自动地进行一元词频统计、二元词语转移概率统计(统计两个词左右连接的频次即概率)。针对常用的术语,会自动给出相应的英文解释。
  6. 文本聚类:能够从大规模数据中自动分析出热点事件,并提供事件话题的关键特征描述。同时适用于长文本和短信、微博等短文本的热点分析。
  7. 文本分类:针对事先指定的规则和示例样本,系统自动从海量文档中识别并训练分类。NLPIR深度文本分类,可以用于新闻分类、简历分类、邮件分类、办公文档分类、区域分类等诸多方面。
  8. 摘要实体:自动摘要能够对单篇或多篇文章,自动提炼出内容的精华,方便用户快速浏览文本内容。实体提取能够对单篇或多篇文章,自动提炼出内容摘要,抽取人名、地名、机构名、时间及主题关键词;方便用户快速浏览文本内容。
  9.智能过滤:能够对指定的分析文档信息进行不良信息的检查和筛选,自动从大量文档中将不良信息过滤出来,以便审核和处理。
  10.情感分析:针对事先指定的分析对象,系统自动分析海量文档的情感倾向:情感极性及情感值测量,并在原文中给出正负面的得分和句子样例。
  11. 文档去重:能够快速准确地判断文件集合或数据库中是否存在相同或相似内容的记录,同时找出所有的重复记录。
12.全文检索:JZSearch全文精准检索支持文本、数字、日期、字符串等各种数据类型,多字段的高效搜索,支持AND/OR/NOT以及NEAR邻近等查询语法,支持维语、藏语、蒙语、阿拉伯、韩语等多种少数民族语言的检索。
  13. 编码转换:自动识别文档内容的编码,并进行自动转换,目前支持Unicode/BIG5/UTF-8等编码自动转换为简体的GBK,同时将繁体BIG5和繁体GBK进行繁简转化。
  大数据不仅仅是一种技术,更是一种思维!大数据并不高高在上,它就在生活的方方面面。



您需要登录后才可以回帖 登录 | 注册

Archiver|手机版|C114 ( 沪ICP备12002292号 )|联系我们 |网站地图  

GMT+8, 2018-5-25 15:19 , Processed in 0.062499 second(s), 14 queries , Gzip On.

Copyright © 1999-2018 C114 All Rights Reserved

Discuz Licensed

回顶部