nba球员图谱
今天运困体育就给我们广大朋友来聊聊nba录象,希望能帮助到您找到想要的答案。
核磁共振是什么?对受伤球员怎样起影响
答核磁共振
核磁共振
nuclear magnetic resonance, MRI
核磁共振全名是核磁共振成像(MRI),是磁矩不为零的原子核,在外磁场作用下自旋能级发生塞曼分裂,共振吸收某一定频率的射频辐射的物理过程。核磁共振波谱学是光谱学的一个分支,其共振频率在射频波段,相应的跃迁是核自旋在核塞曼能级上的跃迁。
核磁共振是处于静磁场中的原子核在另一交变磁场作用下发生的物理现象。通常人们所说的核磁共振指的是利用核磁共振现象获取分子结构、人体内部结构信息的技术。
并不是是所有原子核都能产生这种现象,原子核能产生核磁共振现象是因为具有核自旋。原子核自旋产生磁矩,当核磁矩处于静止外磁场中时产生进动核和能级分裂。在交变磁场作用下,自旋核会吸收特定频率的电磁波,从较低的能级跃迁到较高能级。这种过程就是核磁共振。
核磁共振(MRI)又叫核磁共振成像技术。是后继CT后医学影像学的又一重大进步。自80年代应用以来,它以极快的得到发展。其基本原理:是将人体置于特殊的磁场中,用无线电射频脉冲激发人体内氢原子核,引起氢原子核共振,并吸收能量。在停止射频脉冲后,氢原子核按特定频率发出射电信号,并将吸收的能量释放出来,被体外的接受器收录,经电子计算机处理获得图像,这就叫做核磁共振成像。
核磁共振是一种物理现象,作为一种分析手段广泛应用于物理、化学生物等领域,到1973年才将它用于医学临床检测。为了避免与核医学中放射成像混淆,把它称为核磁共振成像术(MRI)。
MRI是一种生物磁自旋成像技术,它是利用原子核自旋运动的特点,在外加磁场内,经射频脉冲激后产生信号,用探测器检测并输入计算机,经过处理转换在屏幕上显示图像。
MRI提供的信息量不但大于医学影像学中的其他许多成像术,而且不同于已有的成像术,因此,它对疾病的诊断具有很大的潜在优越性。它可以直接作出横断面、矢状面、冠状面和各种斜面的体层图像,不会产生CT检测中的伪影;不需注射造影剂;无电离辐射,对机体没有不良影响。MR对检测脑内血肿、脑外血肿、脑肿瘤、颅内动脉瘤、动静脉血管畸形、脑缺血、椎管内肿瘤、脊髓空洞症和脊髓积水等颅脑常见疾病非常有效,同时对腰椎椎间盘后突、原发性肝癌等疾病的诊断也很有效。
MRI也存在不足之处。它的空间分辨率不及CT,带有心脏起搏器的患者或有某些金属异物的部位不能作MRI的检查,另外价格比较昂贵。
核磁共振技术的历史
1930年代,物理学家伊西多·拉比发现在磁场中的原子核会沿磁场方向呈正向或反向有序平行排列,而施加无线电波之后,原子核的自旋方向发生翻转。这是人类关于原子核与磁场以及外加射频场相互作用的最早认识。由于这项研究,拉比于1944年获得了诺贝尔物理学奖。
1946年两位美国科学家布洛赫和珀塞尔发现,将具有奇数个核子(包括质子和中子)的原子核置于磁场中,再施加以特定频率的射频场,就会发生原子核吸收射频场能量的现象,这就是人们最初对核磁共振现象的认识。为此他们两人获得了1952年度诺贝尔物理学奖。
人们在发现核磁共振现象之后很快就产生了实际用途,化学家利用分子结构对氢原子周围磁场产生的影响,发展出了核磁共振谱,用于解析分子结构,随着时间的推移,核磁共振谱技术不断发展,从最初的一维氢谱发展到13C谱、二维核磁共振谱等高级谱图,核磁共振技术解析分子结构的能力也越来越强,进入1990年代以后,人们甚至发展出了依靠核磁共振信息确定蛋白质分子三级结构的技术,使得溶液相蛋白质分子结构的精确测定成为可能。
1946年,美国哈佛大学的珀塞尔和斯坦福大学的布洛赫宣布,他们发现了核磁共振NMR。两人因此获得了1952年诺贝尔奖。核磁共振是原子核的磁矩在恒定磁场和高频磁场(处在无线电波波段)同时作用下,当满足一定条件时,会产生共振吸收现象。核磁共振很快成为一种探索、研究物质微观结构和性质的高新技术。目前,核磁共振已在物理、化学、材料科学、生命科学和医学等领域中得到了广泛应用。
原子核由质子和中子组成,它们均存在固有磁矩。可通俗的理解为它们在磁场中的行为就像一根根小磁针。原子核在外加磁场作用下,核磁矩与磁场相互作用导致能级分裂,能级差与外加磁场强度成正比。如果再同时加一个与能级间隔相应的交变电磁场,就可以引起原子核的能级跃迁,产生核磁共振。可见,它的基本原理与原子的共振吸收现象类似。
早期核磁共振主要用于对核结构和性质的研究,如测量核磁矩、电四极距、及核自旋等,后来广泛应用于分子组成和结构分析,生物组织与活体组织分析,病理分析、医疗诊断、产品无损监测等方面。对于孤立的氢原子核(也就是质子),当磁场为1.4T时,共振频率为59.6MHz,相应的电磁波为波长5米的无线电波。但在化合物分子中,这个共振频率还与氢核所处的化学环境有关,处在不同化学环境中的氢核有不同的共振频率,称为化学位移。这是由核外电子云对磁场的屏蔽作用、诱导效应、共厄效应等原因引起的。同时由于分子间各原子的相互作用,还会产生自旋-耦合裂分。利用化学位移与裂分数目,就可以推测化合物尤其是有机物的分子结构。这就是核磁共振的波谱分析。20世纪70年代,脉冲傅里叶变换核磁共振仪出现了,它使C13谱的应用也日益增多。用核磁共振法进行材料成分和结构分析有精度高、对样品限制少、不破坏样品等优点。
最早的核磁共振成像实验是由1973年劳特伯发表的,并立刻引起了广泛重视,短短10年间就进入了临床应用阶段。作用在样品上有一稳定磁场和一个交变电磁场,去掉电磁场后,处在激发态的核可以跃迁到低能级,辐射出电磁波,同时可以在线圈中感应出电压信号,称为核磁共振信号。人体组织中由于存在大量水和碳氢化合物而含有大量的氢核,一般用氢核得到的信号比其他核大1000倍。正常组织与病变组织的电压信号不同,结合CT技术,即电子计算机断层扫描技术,可以得到人体组织的任意断面图像,尤其对软组织的病变诊断,更显示了它的优点,而且对病变部位非常敏感,图像也很清晰。
核磁共振成像研究中,一个前沿课题是对人脑的功能和高级思维活动进行研究的功能性核磁共振成像。人们对大脑组织已经很了解,但对大脑如何工作以及为何有如此高级的功能却知之甚少。美国贝尔实验室于1988年开始了这方面的研究,美国政府还将20世纪90年代确定为“脑的十年”。用核磁共振技术可以直接对生物活体进行观测,而且被测对象意识清醒,还具有无辐射损伤、成像快、时空分辨率高(可分别达到100μm和几十ms)、可检测多种核素、化学位移有选择性等优点。美国威斯康星医院已拍摄了数千张人脑工作时的实况图像,有望在不久的将来揭开人脑工作的奥秘。
若将核磁共振的频率变数增加到两个或多个,可以实现二维或多维核磁共振,从而获得比一维核磁共振更多的信息。目前核磁共振成像应用仅限于氢核,但从实际应用的需要,还要求可以对其他一些核如:C13、N14、P31、S33、Na23、I127等进行核磁共振成像。C13已经进入实用阶段,但仍需要进一步扩大和深入。核磁共振与其他物理效应如穆斯堡尔效应(γ射线的无反冲共振吸收效应)、电子自旋共振等的结合可以获得更多有价值的信息,无论在理论上还是在实际应用中都有重要意义。核磁共振拥有广泛的应用前景,伴随着脉冲傅里叶技术已经取得了一次突破,使C13谱进入应用阶段,有理由相信,其它核的谱图进入应用阶段应为期不远。
另一方面,医学家们发现水分子中的氢原子可以产生核磁共振现象,利用这一现象可以获取人体内水分子分布的信息,从而精确绘制人体内部结构,在这一理论基础上1969年,纽约州立大学南部医学中心的医学博士达马迪安通过测核磁共振的弛豫时间成功的将小鼠的癌细胞与正常组织细胞区分开来,在达马迪安新技术的启发下纽约州立大学石溪分校的物理学家保罗·劳特伯尔于1973年开发出了基于核磁共振现象的成像技术(MRI),并且应用他的设备成功地绘制出了一个活体蛤蜊地内部结构图像。劳特伯尔之后,MRI技术日趋成熟,应用范围日益广泛,成为一项常规的医学检测手段,广泛应用于帕金森氏症、多发性硬化症等脑部与脊椎病变以及癌症的治疗和诊断。2003年,保罗·劳特伯尔和英国诺丁汉大学教授彼得·曼斯菲尔因为他们在核磁共振成像技术方面的贡献获得了当年度的诺贝尔生理学或医学奖。 其基本原理:是将人体置于特殊的磁场中,用无线电射频脉冲激发人体内氢原子核,引起氢原子核共振,并吸收能量。在停止射频脉冲后,氢原子核按特定频率发出射电信号,并将吸收的能量释放出来,被体外的接受器收录,经电子计算机处理获得图像,这就叫做核磁共振成像。
核磁共振的原理
核磁共振现象来源于原子核的自旋角动量在外加磁场作用下的进动。
根据量子力学原理,原子核与电子一样,也具有自旋角动量,其自旋角动量的具体数值由原子核的自旋量子数决定,实验结果显示,不同类型的原子核自旋量子数也不同:
质量数和质子数均为偶数的原子核,自旋量子数为0
质量数为奇数的原子核,自旋量子数为半整数
质量数为偶数,质子数为奇数的原子核,自旋量子数为整数
迄今为止,只有自旋量子数等于1/2的原子核,其核磁共振信号才能够被人们利用,经常为人们所利用的原子核有: 1H、11B、13C、17O、19F、31P
由于原子核携带电荷,当原子核自旋时,会由自旋产生一个磁矩,这一磁矩的方向与原子核的自旋方向相同,大小与原子核的自旋角动量成正比。将原子核置于外加磁场中,若原子核磁矩与外加磁场方向不同,则原子核磁矩会绕外磁场方向旋转,这一现象类似陀螺在旋转过程中转动轴的摆动,称为进动。进动具有能量也具有一定的频率。
原子核进动的频率由外加磁场的强度和原子核本身的性质决定,也就是说,对于某一特定原子,在一定强度的的外加磁场中,其原子核自旋进动的频率是固定不变的。
原子核发生进动的能量与磁场、原子核磁矩、以及磁矩与磁场的夹角相关,根据量子力学原理,原子核磁矩与外加磁场之间的夹角并不是连续分布的,而是由原子核的磁量子数决定的,原子核磁矩的方向只能在这些磁量子数之间跳跃,而不能平滑的变化,这样就形成了一系列的能级。当原子核在外加磁场中接受其他来源的能量输入后,就会发生能级跃迁,也就是原子核磁矩与外加磁场的夹角会发生变化。这种能级跃迁是获取核磁共振信号的基础。
为了让原子核自旋的进动发生能级跃迁,需要为原子核提供跃迁所需要的能量,这一能量通常是通过外加射频场来提供的。根据物理学原理当外加射频场的频率与原子核自旋进动的频率相同的时候,射频场的能量才能够有效地被原子核吸收,为能级跃迁提供助力。因此某种特定的原子核,在给定的外加磁场中,只吸收某一特定频率射频场提供的能量,这样就形成了一个核磁共振信号.
核磁共振的应用
NMR技术
核磁共振频谱学
NMR技术即核磁共振谱技术,是将核磁共振现象应用于分子结构测定的一项技术。对于有机分子结构测定来说,核磁共振谱扮演了非常重要的角色,核磁共振谱与紫外光谱、红外光谱和质谱一起被有机化学家们称为“四大名谱”。目前对核磁共振谱的研究主要集中在1H和13C两类原子核的图谱。
对于孤立原子核而言,同一种原子核在同样强度的外磁场中,只对某一特定频率的射频场敏感。但是处于分子结构中的原子核,由于分子中电子云分布等因素的影响,实际感受到的外磁场强度往往会发生一定程度的变化,而且处于分子结构中不同位置的原子核,所感受到的外加磁场的强度也各不相同,这种分子中电子云对外加磁场强度的影响,会导致分子中不同位置原子核对不同频率的射频场敏感,从而导致核磁共振信号的差异,这种差异便是通过核磁共振解析分子结构的基础。原子核附近化学键和电子云的分布状况称为该原子核的化学环境,由于化学环境影响导致的核磁共振信号频率位置的变化称为该原子核的化学位移。
耦合常数是化学位移之外核磁共振谱提供的的另一个重要信息,所谓耦合指的是临近原子核自旋角动量的相互影响,这种原子核自旋角动量的相互作用会改变原子核自旋在外磁场中进动的能级分布状况,造成能级的裂分,进而造成NMR谱图中的信号峰形状发生变化,通过解析这些峰形的变化,可以推测出分子结构中各原子之间的连接关系。
最后,信号强度是核磁共振谱的第三个重要信息,处于相同化学环境的原子核在核磁共振谱中会显示为同一个信号峰,通过解析信号峰的强度可以获知这些原子核的数量,从而为分子结构的解析提供重要信息。表征信号峰强度的是信号峰的曲线下面积积分,这一信息对于1H-NMR谱尤为重要,而对于13C-NMR谱而言,由于峰强度和原子核数量的对应关系并不显著,因而峰强度并不非常重要。
早期的核磁共振谱主要集中于氢谱,这是由于能够产生核磁共振信号的1H原子在自然界丰度极高,由其产生的核磁共振信号很强,容易检测。随着傅立叶变换技术的发展,核磁共振仪可以在很短的时间内同时发出不同频率的射频场,这样就可以对样品重复扫描,从而将微弱的核磁共振信号从背景噪音中区分出来,这使得人们可以收集13C核磁共振信号。
近年来,人们发展了二维核磁共振谱技术,这使得人们能够获得更多关于分子结构的信息,目前二维核磁共振谱已经可以解析分子量较小的蛋白质分子的空间结构。
MRI技术
核磁共振成像
核磁共振成像技术是核磁共振在医学领域的应用。人体内含有非常丰富的水,不同的组织,水的含量也各不相同,如果能够探测到这些水的分布信息,就能够绘制出一幅比较完整的人体内部结构图像,核磁共振成像技术就是通过识别水分子中氢原子信号的分布来推测水分子在人体内的分布,进而探测人体内部结构的技术。
与用于鉴定分子结构的核磁共振谱技术不同,核磁共振成像技术改编的是外加磁场的强度,而非射频场的频率。核磁共振成像仪在垂直于主磁场方向会提供两个相互垂直的梯度磁场,这样在人体内磁场的分布就会随着空间位置的变化而变化,每一个位置都会有一个强度不同、方向不同的磁场,这样,位于人体不同部位的氢原子就会对不同的射频场信号产生反应,通过记录这一反应,并加以计算处理,可以获得水分子在空间中分布的信息,从而获得人体内部结构的图像。
核磁共振成像技术还可以与X射线断层成像技术(CT)结合为临床诊断和生理学、医学研究提供重要数据。
核磁共振成像技术是一种非介入探测技术,相对于X-射线透视技术和放射造影技术,MRI对人体没有辐射影响,相对于超声探测技术,核磁共振成像更加清晰,能够显示更多细节,此外相对于其他成像技术,核磁共振成像不仅仅能够显示有形的实体病变,而且还能够对脑、心、肝等功能性反应进行精确的判定。在帕金森氏症、阿尔茨海默氏症、癌症等疾病的诊断方面,MRI技术都发挥了非常重要的作用。
MRS技术
核磁共振测深
核磁共振探测是MRI技术在地质勘探领域的延伸,通过对地层中水分布信息的探测,可以确定某一地层下是否有地下水存在,地下水位的高度、含水层的含水量和孔隙率等地层结构信息。
目前核磁共振探测技术已经成为传统的钻探探测技术的补充手段,并且应用于滑坡等地质灾害的预防工作中,但是相对于传统的钻探探测,核磁共振探测设备购买、运行和维护费用非常高昂,这严重地限制了MRS技术在地质科学中的应用。
核磁共振的特点
①共振频率决定于核外电子结构和核近邻组态;②共振峰的强弱决定于该组态在合金中所占的比例;③谱线的分辨率极高。
磁共振成像的优点
与1901年获得诺贝尔物理学奖的普通X射线或1979年获得诺贝尔医学奖的计算机层析成像(computerized tomography, CT)相比,磁共振成像的最大优点是它是目前少有的对人体没有任何伤害的安全、快速、准确的临床诊断方法。如今全球每年至少有6000万病例利用核磁共振成像技术进行检查。具体说来有以下几点:
对人体没有游离辐射损伤;
各种参数都可以用来成像,多个成像参数能提供丰富的诊断信息,这使得医疗诊断和对人体内代谢和功能的研究方便、有效。例如肝炎和肝硬化的T1值变大,而肝癌的T1值更大,作T1加权图像,可区别肝部良性肿瘤与恶性肿瘤;
通过调节磁场可自由选择所需剖面。能得到其它成像技术所不能接近或难以接近部位的图像。对于椎间盘和脊髓,可作矢状面、冠状面、横断面成像,可以看到神经根、脊髓和神经节等。能获得脑和脊髓的立体图像,不像CT(只能获取与人体长轴垂直的剖面图)那样一层一层地扫描而有可能漏掉病变部位;
能诊断心脏病变,CT因扫描慢而难以胜任;
对软组织有极好的分辨力。对膀胱、直肠、子宫、阴道、骨、关节、肌肉等部位的检查优于CT;
原则上所有自旋不为零的核元素都可以用以成像,例如氢(1H)、碳(13C)、氮(14N和15N)、磷(31P)等。
临床意义:适应症:
神经系统的病变包括肿瘤、梗塞、出血、变性、先天畸形、感染等几乎成为确诊的手段。特别是脊髓脊椎的病变如脊椎的肿瘤、萎缩、变性、外伤椎间盘病变,成为首选的检查方法。
心脏大血管的病变;肺内纵膈的病变。
腹部盆腔脏器的检查;胆道系统、泌尿系统等明显优于CT。
对关节软组织病变;对骨髓、骨的无菌性坏死十分敏感,病变的发现早于X线和CT。
编辑本段核磁共振和CT的区别
计算机断层扫描(CT)能在一个横断解剖平面上,准确地探测各种不同组织间密度的微小差别,是观察骨关节及软组织病变的一种较理想的检查方式。在关节炎的诊断上,主要用于检查脊柱,特别是骶髂关节。CT优于传统X线检查之处在于其分辨率高,而且还能做轴位成像。由于CT的密度分辨率高,所以软组织、骨与关节都能显得很清楚。加上CT可以做轴位扫描,一些传统X线影像上分辨较困难的关节都能在叮图像上“原形毕露”。如由于骶髂关节的关节面生来就倾斜和弯曲,同时还有其他组织之重叠,尽管大多数病例的骶髂关节用x线片已可能达到要求,但有时X线检查发现骶髂关节炎比较困难,则对有问题的病人就可做CT检查。
磁共振成像(MRI)是根据在强磁场中放射波和氢核的相互作用而获得的。磁共振一问世,很快就成为在对许多疾病诊断方面有用的成像工具,包括骨骼肌肉系统。肌肉骨骼系统最适于做磁共振成像,因为它的组织密度对比范围大。在骨、关节与软组织病变的诊断方面,磁共振成像由于具有多于CT数倍的成像参数和高度的软组织分辨率,使其对软组织的对比度明显高于CT。磁共振成像通过它多向平面成像的功能,应用高分辨的毒面线圈可明显提高各关节部位的成像质量,使神经、肌腱、韧带、血管、软骨等其他影像检查所不能分辨的细微结果得以显示。磁共振成像在骨关节系统的不足之处是,对于骨与软组织病变定性诊断无特异性,成像慢,在检查过程中。病人自主或不自主的活动可引起运动伪影,影响诊断。
X线摄片、CT、磁共振成像可称为三驾马车,三者有机地结合,使当前影像学检查既扩大了检查范围,又提高了诊断水平。
知识图谱基础(三)-schema的构建
答在前面一篇文章《知识图谱基础(二)-知识表达系统》中介绍了知识图谱的基础知识表达系统,什么是entity,什么是relation,什么是domain,什么是type等等。本篇文章主要从应用角度来聊一聊如何构建schema以及shcema构建中需要考虑的问题。以下所讲的schema构建主要是基于common sense进行构建的,弱关系图谱构建会在应用中讲到。
简单来说,一个知识图谱的schema就是相当于一个领域内的数据模型,包含了这个领域里面有意义的概念类型以及这些类型的属性。任何一个域的schema主要由类型(type)和属性(property)来表达。图1是plantdata内的创投schema,主要是为了发掘一级市场的投资和融资构建的schema。该schema主要是去定义需求,哪些数据对创投有用,才往上构建,例如:人物都有身高 体重,但是这些数据对创投来说意义不大,在schema中就不用构建了。关注创投的人会关注这些基金与人物投资了哪些公司,投资的公司所属行业,投资的公司属于哪一类企业,在该schema中就需要详细构建。
1.如何构建域(domain)
域(domain)的概念是凌驾于所有类型之上,对于域的定义应该尽量的抽象,不应该具体,同时域与域之间应尽量做到相互独立,不交叉。例如,省份就不应该是一个域的概念,在思考是否应该把一个概念当做域时,需要考虑到该概念是否能够继续向上抽象,例如:省份;城市;国家;县等等,他们同属于地理位置域。在明确域的概念时,应该定义好域的边界,这样比较容易区分不同域之间的区域划分。
2.如何确定一个域的类型(type)
这里需要产品经理去思考,构建这个schema的核心需求是什么,到底需要解决用户什么问题。为了满足这些核心需求,我们需要创造出哪些概念?
举个例子,在汽车领域,用户主要关心什么问题,例如:汽车的品牌、车系、发动机。
在NBA领域,用户主要关心球队、所属联盟、教练、球员等等。
针对不同的需求,需要在域下面构建不同的类型来满足用户的需求。
3.如何确定属性(property)
思考的角度如下:
1.以用户需求为出发点
2.以数据统计为证据
比如在构建完足球领域中的球队类型后,该类型集合了所有的球队实体,站在用户角度触发,用户会关注球队的哪些关系?
图2是我简单的针对足球领域构建的一个图谱,上面包含了梅西(球队的球员), 埃内斯托·巴尔韦德 (球队的教练),西甲(球队的所属联赛),其中梅西、西甲、埃内斯托.巴尔韦德又分属于不同的类型:足球球员,足球联赛,足球教练,这些所有的类型构成了足球域。
从上图的common sense配合图查询和自然语言处理技术已经可以支持基础的问答了,例如,梅西是哪个球队的?埃内斯托巴尔韦德是哪些球员的教练?西甲有哪些球队在踢球?等等
schema的应用是产品经理需要重点考虑的内容,因为产品需求决定了schema应该怎么构建,构建的是否完备。而产品的具体应用则主导了schema的整体构建方式,如果不仔细考虑产品应用的话,最惨的情况可能构建了很久的schema会因为一个逻辑坑而彻底报废掉,由于知识图谱又是一个牵一发而动全身的工程,根据实际经验来说,如果图谱构建和应用有部分脱节,可能修改图谱schema比重新构建图谱schema的成本还要高。所以,首先确认好具体的应用场景对于一个schema构建的成功与否是至关重要的。
笔者写一套曾经用过的确认schema的流程
先将应用根据需求的强弱划分,分为基础核心需求,schema特色需求,锦上添花需求,未来扩展性需求。
基础核心需求:是经过需求分析后,构建这个schema需要完成最核心的需求,该需求优先级最高
schema特色需求:构建图谱时可能会经常遇到图谱可以实现而其他方法实现比较困难的特色需求,这类需求可能需求强度不是很高,但是由于能够实现一定的差异性,经常会有意想不到的效果。
锦上添花需求:非基础核心需求,做了更好,不做也可以接受
未来扩展性的需求:确认schema的时候要充分考虑到未来的扩展性,因为这类需求有可能会大改图谱的schema结构
在构建schema的时候,根据上述分类,需要去考虑该schema一期需要满足哪些具体的功能,将功能一一列下来,哪些功能是需要放在第二期、第三期完成的,未来的扩展性需求需要在构建的哪一块区域留下可扩展的内容。
常用的方法可以使用excel去列出一、二、三期所需要的功能点。
列出上述的功能点后,针对每一个功能点在后面备注好该功能的构建要点(注:这个非常重要),通常需求只需要将产品需求转化成一定的查询结构即可,笔者原来用的是cypher查询语法。以图2为例,我要支持某个教练教了哪些球员?转化成查询语言就是(a:足球教练)<-{b:教练}-(c:球队)-{d:球员}-(e:足球球员) return e。将a变成参数,输入a即可返回所有的e,即输入埃内斯托巴尔韦德,返回就是梅西。
流程如下:query:埃内斯托巴尔韦德带了哪些球员?→语义解析→转化成上述查询,将埃内斯托巴尔韦德作为参数a代入查询→返回结果→前端包装展示
注:上面在每个功能点后面备注了构建要点,当大部分功能点的构建要点都写完的时候,需要集中查看构建要点,因为如果需求本身比较大的话,不同的需求很容易造成schema的构建冲突,正如前面所讲,schema尽量要保证少出错。这个时候由于备注了构建要点,可以全局的来审视这个schema中间有没有逻辑黑洞。常出现的问题主要是在属性的设计,以及知识融合上。
拿着上述文件去找开发,确认一下哪些是比较好实现的,一般来说做到这种程度大多数需求开发都是会接的。如果开发同学足够专业的话,他会从他的视角去给你提出他的宝贵意见。通常产品经理在思考schema这一块更倾向于思考这个schema的作用,而开发同学会思考工程实现、实现效率、运行效率、计算量等问题。
大规模构建schema的时候需要认真考虑数据源的情况,由于不同公司掌握的数据不同,所应用的对策也不同。
通常笔者会将数据源分为如下几种:
1.已经清洗好的结构化数据:这部分数据一般是公司的核心数据,或者其他公司的核心数据,构建的时候应该优先考虑这类数据。这部分数据通常只需要改变数据格式即可入图谱。
2.清洗好的结构化数据,但数据残缺:这部分数据通常需要数据挖掘,知识融合。清洗难度是由残缺比例决定的。
3.无数据:没有这部分数据,但是又需要这部分数据,通常只能去选择让BD去购买数据,或者让爬虫组去专业网站爬取,例如:企业数据可以去企查查,电影的数据可以去猫眼,产业的数据可以去产业信息网等等。
假设需要构建的图谱entity数量在千万级别,开发力量不够强大的时候,慎用纯数据挖掘方案,有条件的话笔者建议直接去买结构化数据,因为可能挖掘和知识融合在经济上的成本比直接买数据要高,而且时间周期也会很长。
个人认为,大规模构建schema最难的地方就在于挖掘数据的知识融合上,举个例子:全国有10000个叫王刚的人,爬虫从A网站挖下来5000个“王刚”,从B网站挖下来7000个“王刚”,那么这5000个王刚和那7000个王刚到底是不是一个人?在没有身份证号码的情况下如何确定哪些王刚是一个人呢?常规的做法是去挖掘出“王刚”的其他信息,例如出生年月,任职信息,籍贯等等,然后通过一定的算法进行知识融合。通常,网站的数据不一定全面,即使经过知识融合后,挖掘的数据中一定会有大量的噪音,不同的需求对噪音的承受能力是不同的,构建schema的时候需要充分考虑数据出现噪音的可能性,去评价这部分需求对噪音的承受能力。
如果知识融合完成了话,大规模构建其实就是一个导数据的过程,由于图谱数据结构的关系,一般存2张表(点、边)或者使用RDFs存储,在entity数量上千万以后,图谱的查询压力会比较大,单机查询可能会直接跪掉,开发一般会采用graphX的分布式的存储,不过由于点和边的切割方式的问题,会有一定的副作用。
今天的内容先分享到这里了,读完本文《nba球员图谱》之后,是否是您想找的答案呢?想要了解更多,敬请关注www.zuqiumeng.cn,您的关注是给小编最大的鼓励。
本文来自网络,不代表本站立场,转载请注明出处:https://www.zuqiumeng.cn/wenda/1231249.html