微信扫码
添加专属顾问
我要投稿
随着大数据、云计算的发展,计算机视觉、自然语言处理、深度学习等关键技术的突破,人工智能技术也得到了新一轮的发展,这使得以数据密集、知识密集、脑力劳动密集为特征的医疗产业与人工智能迎来了更加密切的深度融合。封面智媒云 一直关注大数据人工智能在各行业的应用需求 。 本次小封邀请到的分享嘉宾是数据研究部-NLP算法专家Starry,给我们带来AI驱动医疗整体技术解决方案的分享。
AI医疗背景
随着人们物质生活水平的发展,传统医疗行业发展显现,主要表现在医疗压力大,医疗资源不足,医疗资源浪费等。
人工智能是一种用机器来模拟扩展人的智能的一门科学技术,现在已经在医疗行业中发挥着重要的作用。从应用场景来看,主要有虚拟助理、医学影像、辅助诊疗、疾病风险预测、药物挖掘、健康管理、医院管理、辅助医学研究平台等八大AI+医疗市场应用场景。
医疗大脑技术架构
技术架构 涵盖数据源、数据挖掘层、知识计算层、知识存储层、知识应用层等层面。
数据源层
各类数据源的持续清洗与丰富。
对应医疗领域的数据,我们需要保证数据的充分,更加需要保证数据的高质量。
a)非结构化专家医疗文档数据:为了保证医疗数据的来源的高质量性,我们直接对医疗专家产出的数据进行搜集;
b)权威医疗文献、政策:仅仅是专家产出的医疗文档数据是不够充分的,为此,我们引入了大量开放的权威医疗文献。这样我们既能够保证医疗数据的高质量,又可以引入更加丰富全面的数据。
c)临床病例数据:我们需要的数据不单单是一般的文献、科普类似的数据,我们还需要实际的临床经验,用于后续的医疗深层计算与推理。
d)专家知识、医疗常识:上述的数据源都并没有重点,我们无法知道哪些知识是常识,哪些知识是业内认为的金标注。
e)其他数据:其实数据的类型并不只是文本类的,其实还有很多多媒体、表格、等各类的非结构化数据,这些都可以作为我们的数据源。
数据挖掘层
知识图谱实体及其关系挖掘及知识图谱构建;用户自描述知识库挖掘;问答知识挖掘,医疗细分领域词典挖掘。
一般的模型策略都是规则自学习+浅层机器学习模型+深度学习 。
a)知识图谱实体关系挖掘:在构建医疗知识图谱中,需要从数据源中挖掘出知识图谱需要的实体,及实体关系。
b)问答知识挖掘:用户表达存在极大的口语化的表达,比如用户哪些词汇会认为口语上是同一个东西,如何知些 道哪 问题是用户最为关心的,等等。 都是需要从问答数据上进行挖掘的。
c)深度知识挖掘:在通用的知识挖掘中,其实有很多较为细致的知识是没有挖掘到的,而在具体应用的过程会会发现有很多更深层次的知识是可以挖掘的。而结合深度学习就可以挖掘更深的知识。
d)用户自描述知识库挖掘:如何明白用户在随表表达的过程是在讲述哪个实体或是关系,如果将问题划分为自动分类问题,是目前的技术无法解决的。
e)医疗细分领域词典挖掘:在理解用户语言的过程中,如何能够知道每个词汇的具体所指是很重要的(疾病、症状、西药、中药等等)。
知识计算层
在对数据进行一定程度的挖掘之后,依然很多深层次的知识信息是无法获取及应用的,因而引入知识计算层。
a)语义搜索:所谓语义搜索,是指搜索引擎的工作不再拘泥于用户所输入请求语句的字面本身,而是透过现象看本质,准确地捕捉到用户所输入语句后面的真正意图,并以此来进行搜索,从而更准确地向用户返回最符合其需求的搜索结果。
b)意图理解:如何理解用户的实际需要,就需要对知识进行综合利用,计算出用户在不同情况下的意图。
c)多轮交互跟踪:真正去理解用户,需要理解不同场景下用户的多轮交互(不单单是对话、操作等),综合利用多轮交互的信息,明白用户意图。
d)医学图像识别:从图像维度,识别分析用户的影像检查结果。
e)生化指标内容识别:利用图像OCR,识别用户生化检查指标。
f)知识推理:耦合图像、文本维度多模态数据,利用医疗知识图谱进行一定的推理演化,比如用在诊疗方向。
g)深度知识计算:很多知识的计算并不能简单的得到,于是引入深度知识计算,得到更加深层次的知识。
存储层
各大数据库已经应用。
redis专门存放key-value快速查询场景的数据。
elastic主要是用于需要有全文搜索的数据。
mysql主要是一般没有特定需求的数据。
neo4j是用来存储医疗知识图谱的。
应用层
主要就是在不同医疗场景的应用,比如智能导诊、医疗知识百科、医疗大数据辅助决策系统、标准化电子病历、健康管理等。
以对话框架为入口,获取用户症状描述、个体特征等文本信息,及生化检查报告、医学影像等图像信息,耦合多模态知识进行知识计算,准确定位用户需求。
医疗大脑核心技术
知识图谱
数千万的权威医学文献作为数据来源,进行医疗实体关系抽取:疾病、症状、化验、检查、药物、手术、治疗、人群等十多类的实体关系。
依托海量的病历数据进行知识图谱的可逻辑推理化,构建可推理的知识图谱。
基于深度/浅层学习技术,构建用户自描述知识图谱,真正理解用户口语化表达的含义。
医学影像识别
医学影像的精准识别对医生的决策至关重要,也是AI处理医学影像是目前发展最快的方向。基于一定规模的CT、核磁、X光等影像数据。医学专家指导的主动学习,图像领域深耕的半监督增强。深度学习、迁移学习、元学习提高识别准确率。
生化检查报告指标识别
与用户的交互过程中,用户不仅可上传医学影像,还有医学生化检查报告;检查报告,客观量化了用户身体特征的各种指标(血脂、孕酮等),是用户信息的重要构成部分,精确获取检查指标对医疗分析弥足重要。
为此,基于生化检查报告,构建医疗领域专属字体库。
研发成熟、高效的OCR技术。构建准确全面的指标量化知识库。
多轮交互信息继承识别模型
获取当前用户与机器人的多轮前述交互信息、此轮问题以及当前用户每句话的意图分布 。利用预先训练得到的多轮交互信息继承识别模型中的模型,对此轮问题进行多轮交互信息继承与否的识别 。当识别的识别分数大于预设分数范围时,进行多轮前述交互信息的继承;当识别的识别分数在预设分数范围内时,利用预先训练得到的多轮交互继承识别模型中的规则模型,对此轮问题进行规则匹配,并进行多轮前述交互信息的继承 。
无监督分词模型
解决目前分词器对于标注语料的依赖,而标注语料的获取难度都是极大的,特别是一些垂直领域,如医疗等 。一些垂直领域的分词器效果都并不佳,为此我们提出了一种完全无监督的分词模型。
基于半监督的领域词挖掘及分类
领域词的挖掘及分类算法现在主要包括:基于外部知识库,基于统计学,基于深度学习,基于句子级别的序列标注。
在基于外部知识库的方法中,因为知识库规模的限制,知识库对词语的涵盖不 全。
基于统计学,基于深度学习,基于句子级别的序列标注 都需要海量的标注数据,难以获取。
提出方法,利用一般的领域数据和种子词典,耦合外部知识库、统计学、深度学习等进行挖掘和分类。
医疗大脑大数据支撑
数据分类
从医疗数据分析的角度看,包括三大类的数据: 临床数据、基因数据和大健康数据:
1)临床数据,就是医院产生的数据,一个人去医院会做检验、开药、拍片,这都是医院产生的数据,有一个测算临床数据对人健康的影响有10%;
2) 基因数据,就是与生俱来的数据,对人的健康影响有30%,有很多人在做基于基因的诊断,包括肿瘤治疗。
3) 大健康的数据,就是目前医院和基因之外,所有与健康相关的数据,包括饮食、运动、工作、在社交媒体上发泄的情绪。
技术架构
Hadoop
1)Namenode HA设计,支持大规模集群的高可用。
2)丰富的分布式计算生态圈, HDFS,Hbase , Hive ,Spark 。
全文检索
1)分布式搜索系统,REST风格,搜索和分析系统 。
2)实时数据 ,实时分析 。
3)高可用 ,全文搜索 。
4)操作持久化 。
5)冲突管理 。
应用案例
导诊场景
在医院的情景下,如何告知用户前往哪个科室。
智能问答场景
这个场景是一个基础场景,任何一个大的落地场景都可以植入该场景。
在药店场景中,提供用户一些信息查询及咨询。能够搜集到用户更多正向的反馈,增加药店在顾客心中的专业认知度。
指标理解场景(药店)
与智能问答场景是一样的,也是一个基础场景。
通过医疗行业人工智能技术的分享,大家看到更多智能化场景,特别是结合到现有业务的智能机器人,以及文本结构化处理,图像OCR等等方面, 未来我们会继续增强在AI领域的应用能力,探索更多的场景,孵化更多的数据产品落地,以智媒云为方向强化对外的数据产品输出。
扫码
关注
案例分享 | 智媒云携手黑龙江 ! 广播电视台,全力打造《极光新闻》
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业