中华预防医学杂志    2020年06期 青少年艾滋病防治投放的核心知识宣传信息与“百度知道”文本挖掘词频对比分析    PDF     文章点击量:126    
中华预防医学杂志2020年06期
中华医学会主办。
0

文章信息

吴慧超 书文 李梦龙 李子昂 胡翼飞
WuHuichao,ShuWen,LiMenglong,LiZiang,HuYifei
青少年艾滋病防治投放的核心知识宣传信息与“百度知道”文本挖掘词频对比分析
Using text mining to identify gap in acquired immunodeficiency syndrome related information dissemination between the official channel delivery and the needs of adolescents
中华预防医学杂志, 2020,54(6)
http://dx.doi.org/10.3760/cma.j.cn112150-20190816-00663
引用本文:

文章历史

投稿日期: 2019-08-16
上一篇:2010与2017年中国城市和农村主要慢性病可避免死亡率的比较研究
下一篇:基于哨点医院电子病历计算机自动识别技术的流感样病例试点监测评价
青少年艾滋病防治投放的核心知识宣传信息与“百度知道”文本挖掘词频对比分析
吴慧超 书文 李梦龙 李子昂 胡翼飞     
吴慧超 首都医科大学公共卫生学院,北京 100069
书文 首都医科大学公共卫生学院,北京 100069
李梦龙 首都医科大学公共卫生学院,北京 100069
李子昂 首都医科大学公共卫生学院,北京 100069
胡翼飞 首都医科大学公共卫生学院,北京 100069
摘要: 目的  分析国家针对青少年艾滋病防治投放的核心知识宣传信息与“百度知道”文本挖掘词频差异。方法  采用网络数据采集方法(即数据爬虫),采集并整理截至2018年6月11日“百度知道”上在线查询者关于艾滋病提问的相关信息;国家针对青少年艾滋病投放的核心宣传信息(简称核心知识宣传信息)由《大众人群艾滋病知识知晓率问卷》和《青年学生人群艾滋病知识知晓率问卷》,及14条针对青年学生艾滋病防治宣传教育核心知识构成。根据官方分类将所有数据分为预防,检测和治疗,危险性认识、症状和传播,法律法规、歧视与政策4类。利用中文文本分词、词频统计、对比分析和词频可视化呈现等文本挖掘方法比较去除无用词后以上两方面信息的差异。结果  “百度知道”信息中,预防,检测和治疗,危险性认识、症状和传播,法律法规、歧视与政策类词频数量分别为18 942、43 140、73 437和33 859个;核心知识宣传信息中,4类词频数量分别为371、241、208和136个。核心知识宣传信息的语义相关词词频中,占总词频比例最高的为预防类(32.3%,162个),最低的为法律法规类(14.1%,71个);“百度知道”信息的语义相关词词频中,最高的为检测与治疗类(51.7%,51 264个),最低的为预防类(11.4%,11 272个)。两方面信息完全重复词占核心知识宣传信息词频比例为59.3%~63.9%;完全重复词占“百度知道”信息4类词频比例相对较低,预防类、检测与治疗类均大于45%,症状和传播类为34.3%(14 781个),法律法规类最低,仅为17.0%(5 744个)。结论  对比官方投放和“百度知道”,法律法规类和预防类词频对比差异较大,建议在核心知识宣传中结合青少年需求和兴趣增补和改进相关内容。
关键词 :获得性免疫缺陷综合征;HIV;知识宣传;百度知道;文本挖掘
Using text mining to identify gap in acquired immunodeficiency syndrome related information dissemination between the official channel delivery and the needs of adolescents
WuHuichao,ShuWen,LiMenglong,LiZiang,HuYifei     
Department of Child and Adolescent Health and Maternal Health, School of Public Health, Capital Medical University, Beijing 100069, China
Corresponding author: Hu Yifei, Email: huyifei@yahoo.com
Abstract:Objective  The study intends to identify gap in HIV/AIDS awareness dissemination between the official channel delivery and the needs of adolescents.Methods  We crawled all the HIV/AIDS queries from “Baidu zhidao” till June 11st, 2018. “Baidu zhidao” inquiry and information form official public service announcement (abbreviated for “official delivery” hereafter) were the data source for comparative analysis. We categorized the text data into four kinds, “prevention”, “testing and treatment”, “symptoms and infection” and “legalization and policies” according to official categorization. Word segmentation was used for text mining and word frequency statistics, as well word cloud was used for word frequency visualization (all based on a comparison after removing the useless words).Results  Of the official delivery, the proportion of prevention category accounted for 32.3% (n=162) (ranks 1st), and the proportion of legalization and policies category was 14.1% (n=71). While among the “Baidu zhidao” inquiry information, the proportion of testing and treatment category accounted for 51.7% (n=51 264), and the proportion of prevention category accounted for 11.4% (n=11 272). The frequencies of same terms/ repeated terms of two channels accounted for 60% (59.3%-63.9%) of each category among the official delivery, of which, the proportion of interest terms comparatively less and more diverse in “Baidu zhidao” inquiries. The proportion of the terms frequency of each category was about 45% in “prevention, testing and treatment”, 34.3% (n=14 781) in “symptoms and infection” and 17.0% (n=5 744) in “legalization and policies”, respectively.Conclusion  A big gap was identified between the available official source and inquiries’ term, especially word frequency discrepancy between “legalization and policies” and “prevention” categories. It underscore the necessity for the official channel to address the needs and interests of adolescents in the future.
Key words :Acquired immunodeficiency syndrome;HIV;Official information, education and communication information;“Baidu zhidao” inquiry;Text mining
全文

艾滋病是威胁人类健康和生存的严重公共卫生和社会问题[1, 2]。中国高度重视艾滋病的预防和控制工作,为提高大众对艾滋病的知晓与了解程度相继发布了一系列针对不同人群的艾滋病防治宣传教育核心知识等文件[3]。经过各方面共同努力,虽然HIV的新发感染例数总体呈下降趋势,但重点人群中的青少年感染率却有所上升,全球新发HIV感染者中50%以上为15~24岁青少年[4, 5]。由于近年发展迅速的互联网以及新媒体被青少年人群广泛使用,他们的艾滋病相关知识来源以及行为方式均发生了很大变化[6]。青少年更倾向通过互联网查询他们对艾滋病的困惑和疑虑[7]
        百度是目前全球最大的中文搜索引擎及最大的中文网站,而“百度知道”是百度旗下的互动式知识问答分享平台,也是全球最大的中文问答平台。为了解国家官方主渠道针对青少年的艾滋病防治宣教信息是否满足青少年的需求,本研究通过使用文本挖掘方法对“百度知道”上提问信息和国家官方宣教与投放的核心知识信息进行对比分析。旨在为中国青少年艾滋病的宣传教育提出政策建议,使更多的青少年通过官方主渠道的宣教内容获得其自身对于艾滋病的需求信息,提高他们的自我防护意识和能力,最终控制甚至降低HIV在青少年中的感染率。

资料与方法  

一、资料  通过相关检索策略和网络数据采集截至2018年6月11日“百度知道”上近乎全部关于艾滋病的在线查询者提问信息。国家针对青少年艾滋病投放的核心宣传信息知识点(简称核心知识宣传信息)由《大众人群艾滋病知识知晓率问卷》和《青年学生人群艾滋病知识知晓率问卷》,以及14条针对青年学生艾滋病防治宣传教育核心知识构成。本研究通过首都医科大学伦理审查委员会审查(批号:2016SY15)。

二、数据信息检索及采集  通过查阅文献、网络初步检索、课题组专题讨论和专家评定等方法,依据核心知识的分类,将本研究所用到的全部关于艾滋病的信息数据(包括“百度知道”信息与核心知识宣传信息)分为4类:预防;危险性认识、症状和传播;检测与治疗;法律法规、歧视与政策。并且讨论研制出针对每一类内容的网上检索策略以备数据采集。

1.预防类:  “检测/风险/时间/药物/方法/常识/资料/措施/宣传/教育/青年学生”“安全套,使用/领取/作用”“暴露前预防/暴露后预防”。

2.危险性认识、症状和传播类:  “症状,疑似/时间”“潜伏期/外表/发烧/皮疹”“途径,传染”“同性/异性/母婴/怀孕/注射/握手/拥抱/吃饭/接吻/马桶/宿舍/献血/牙刷/剃须刀/针灸/美容/修脚/打耳洞/纹身”。

3.检测与治疗类:  “检测,时间/抗体/血液/唾液/潜伏期”“VCT/快速检测/试纸/初筛/确证/自检”“治疗,方法/时间/药物/中医/效果/早期/副作用/一线药/费用/抗病毒/依从性”。

4.法律法规、歧视与政策类:  “歧视,法律/影视作品/活动/就业/就医/就学/单位/社会/权益”“侮辱/排斥”“政策,预防/治疗/检测/救助/隐私/免费/权利/就业/就医/就学”。检索策略包含关键词的全部近义词、模糊词和简称。
        运用网络爬虫技术对在“百度知道”上通过检索策略搜索出来的全部提问信息进行数据采集。利用Python(2.7)-windows进行数据抓取即网络爬虫[8],通过urllib2模块进行网页内容下载,通过lxml.etree工具对网页内容进行解析即从html代码中筛选出有用数据,抓取到全部有关艾滋病的提问信息之后,通过Pandas导入数据库并删除完全重复的提问句。

三、数据处理及分析  本研究使用文本挖掘方法和R 3.6.1软件对数据进行处理和分析。具体为:(1)使用R软件中的中文分词包和工具jiebaR和Rwordseg分割语句成若干个词条。(2)通过R软件过滤单字以及添加停用词、无用词库对分词后的文本数据去除停用词和无用词,例如“的”“啊”“是”等。(3)对处理后的文本数据利用R软件进行词频统计。由于“百度知道”信息中词频数量过于庞大且单词词频较低的词语大多同“艾滋病”无关,因此在每一类中提取词频≥5的词与核心知识宣传信息的全部分词作对比分析。
        分词数量是指文本数据通过分词处理后得到的不同词语的个数;词频数量是指每个词语所出现次数的总和,即全部词语数量;语义相关词是指通过课题组讨论,人工筛选出每一类别中所含词语的语义与该类别内容相关的词语;语义相关词词频数量占去除无用词后词频数量比例,是各类语义相关词的词频数与各类去除无用词后词频数量的比值;语义相关词词频占四类语义相关词总词频比例,是相应分类语义相关词的词频数与四类语义相关词词频数合计数的比值;重复词词频数量占去除无用词后词频数量比例,是相同单词的词频数与去除无用词后各类词频数量的比值。
        使用Python(2.7)-windows中的wordcloud库对每一类别中的高频词语作可视化呈现即绘制词云图并分别显示单词词频数量排名前10的词语(由于“百度知道”信息中均包含“艾滋病”及其近义词、模糊词和简称,所以将其从词云图中去除)。

结果  

一、基本情况  

1.“百度知道”信息:  经过整理并删除重复句后,共采集到60 213个提问句,包括预防,危险性认识、症状和传播,检测与治疗和法律法规,歧视与政策4类,详见表1。经过分词,去除停用词和无效词后,每一类中分别对应的分词个数分别为602、934、1 468、和1 254个,词频数量分别为18 942、43 140、73 437和33 859个。

表1基于“百度知道”采集艾滋病相关提问信息的文本数量(个)

2.核心知识宣传信息:  经过分词,去除停用词和无效词后,预防类分词为187个,危险性认识、症状和传播类为119个,检测与治疗类为110个,法律法规、歧视与政策类为97个;词频数量分别为371、241、208和136个。详见表2

表2国家针对青少年艾滋病核心知识宣传信息的文本数量(个)

二、词频比较  

1.语义相关词基本情况:  预防类中,核心知识宣传信息语义相关词词频占去除无用词后词频数量的比例为43.7%(162个),低于“百度知道”信息的59.5%(11 272个);危险性认识、症状和传播类中,核心知识宣传信息与(52.7%,127个) “百度知道”信息(53.6%,23 132个)相近;检测与治疗类中,核心知识宣传信息为68.3%(142个),也与“百度知道”信息(69.8%,51 264个)差距不大;法律法规、歧视与政策类中,核心知识宣传信息为52.2%(71个),高于“百度知道”信息的39.8%(13 475个)。见表3。核心知识宣传信息语义相关词词频数占4类语义相关词总词频最高的为预防类,占32.3%(162个),最低的为法律法规、歧视与政策类,占14.1%(71个);“百度知道”信息中最高的为检测与治疗类,占51.7%(51 264个);最低的为预防类,占11.4%(11 272个)。

表3国家针对青少年艾滋病核心知识宣传信息与基于“百度知道”采集艾滋病相关提问信息语义相关词词频和重复词词频情况[个(%)]

2.两方面完全重复词词频情况:  核心知识宣传信息同“百度知道”信息中完全重复词词频在核心知识宣传信息各类词频的构成比为59.3%~63.9%;“百度知道”信息各类词频的构成比中,预防类、检测与治疗类均>45%,危险性认识、症状和传播类为34.3%(14 781个),法律法规、歧视与政策类最低,仅为17.0%(5 744个),见表3

三、词频可视化呈现  “百度知道”信息和核心知识宣传信息各类词语依据词频数量绘制的词云图即可视化呈现以及各类中单词词频数量前10的词语,详见图12。预防类,危险性认识、症状和传播类,检测与治疗类以及法律法规、歧视与政策类分别以“雨伞”“病毒”“红丝带”及“绿树”状呈现。“检测”一词的词频在“百度知道”信息除预防类以外的其他3类中均排进前10;预防类词频排名前10的单词在两方面信息中有7个单词语义相同或相近,危险性认识、症状和传播类有3个,法律法规、歧视与政策类有3个,检测与治疗类近乎没有语义相同或相近的单词;检测与治疗类在“百度知道”信息中出现的频率较高的两个单词为“药物”和“治愈”,而核心知识宣传信息中未出现。

图1基于“百度知道”采集艾滋病相关提问信息词云图(词频≥5)及单词词频数量前10位词语分布图 图A~D分别为预防类,危险性认识、症状和传播类,检测与治疗类,法律法规、歧视与政策类
图2国家针对青少年艾滋病核心知识宣传信息词云图及单词词频数量前10位词语 图A~D分别为预防类,危险性认识、症状和传播类,检测与治疗类,法律法规、歧视与政策类
青年学生处于性活跃的年龄阶段,是艾滋病性传播的易感人群,对其进行艾滋病知识的正确宣传与观念引导是艾滋病预防工作的重要部分[9, 10]。已经有多项研究结果显示青年获取艾滋病相关知识的主要途径是网络和健康教育课[11, 12, 13],网络搜索由于其便利性、快速性、匿名性和可及性等特点成为青少年最喜欢的健康教育获取途径[14]
        知识是行为改变的基础,及时获得艾滋病相关知识会改变危险行为[15]。国家对艾滋病相关知识的宣传足够重视,投放了针对不同人群的艾滋病宣教核心知识。本研究发现,国家对于艾滋病相关知识的宣教力争在不同类别中保持相对平衡,但针对青少年人群仍然更重视预防类内容。相比较预防类,在线查询者对艾滋病检测与治疗类的知识搜索更多,并且通过词云图的高频词对比,两方面信息检测与治疗类语义相同或相近的单词数量最少。说明此类宣教内容覆盖面相对不足,难以满足年轻人的好奇心[16],而在预防类方面,核心知识的宣传可能并未满足其求知欲和兴趣,以至于关注度相对较低[17];还有一种可能解释是部分在线查询者在高危行为后会通过网络搜索检测与治疗类的相关内容,寻求心理安慰或补救措施[18]
        本研究发现国家主渠道针对青少年宣教的核心知识确实覆盖了艾滋病相关知识当中的核心要素。而“百度知道”信息中重复词词频的构成比分析则显示核心知识宣传中关于法律法规的内容偏少,有研究证实青年学生对于该类知识知晓率最低[19]。一项艾滋病知识知晓率调查中发现大学生对 “艾滋病四免一关怀政策”的知晓率仅为8.1%[17]。通过词云图和高频词排名也可以看出在法律法规这类,在线查询者尤其关心“检测”“歧视”“预防”等政策和规定,而在核心知识宣传当中却很少出现。这提示此类知识需要在宣传中有针对性地补充,提高法律法规类内容在青年学生中的投放量。
        本研究使用文本挖掘方法针对艾滋病相关知识信息作对比分析并提出政策建议。经过课题组检索相关文献、讨论、预实验和专家评定设计出较为全面的检索策略,几乎可穷尽在线查询者在“百度知道”艾滋病所有相关提问信息。本研究的局限性在于只是横断面分析,无法判断随时间推移在线查询者针对艾滋病关心内容的转变。
        结合本研究的结论分析,特提出如下政策建议:对于法律法规这类知晓率较低的知识点,针对在线查询者关心的内容增补知识;建议学校对艾滋病的科普教育,增加检测与治疗类知识的深度和广度,针对学生关注的预防类知识的兴趣点,提高科普效率;政府部门可充分利用网络媒体,建立预防艾滋病教育网络平台,将网络的便利性和官方知识的可靠性充分结合。

参考文献
1贺生, 甘启英, 范双凤, 等. 青年学生艾滋病的流行趋势与防控对策[J]. 中国艾滋病性病, 2018(2): 208-210.
2贾平. 中国艾滋病法律与公共政策——以权利保障和受影响人群为核心[J].中国艾滋病性病,2016, 22(3):222,封3-3封4. DOI: 10.13419/j.cnki.aids.2016.03.25.
3吴尊友. 艾滋病预防技术进展与防治策略[J].中华预防医学杂志,2018, 52(12):1204-1209. DOI: 10.3760/cma.j.issn.0253-9624.2018.12.002.
4BekkerLG, AlleyneG, BaralS, et al. Advancing global health and strengthening the HIV response in the era of the Sustainable Development Goals: the International AIDS Society-Lancet Commission[J]. Lancet, 2018, 392(10144):312-358. DOI: 10.1016/S0140-6736(18)31070-5.
5Unaids. How AIDS changed everything—MDG 6: 15 years, 15 lesson of hope from the AIDS response[EB/OL]. [2019-08-08]. https://reliefweb.int/report/world/how-aids-changed-everything-mdg6-15-years-15-lessons-hope-aids-response.
6WangL, PodsonD, ChenZ, et al. Using Social Media To Increase HIV Testing Among Men Who Have Sex with Men-Beijing, China, 2013-2017[J]. MMWR Morb Mortal Wkly Rep, 2019, 68(21):478-482. DOI: 10.15585/mmwr.mm6821a3.
7张欣, 常春, 孙昕霙, 等. 某医学院大学生艾滋病相关知识行为态度的比较[J]. 中国艾滋病性病, 2016(12): 975-977,981.
8孙建立, 贾卓生. 基于Python网络爬虫的实现及内容分析研究[C]. 中国计算机用户协会网络应用分会2017年第二十一届网络新技术与应用年会论文集, 2017.
9ChoiE, WongJ, FongD. Disparities Between HIV Testing Levels and the Self-Reported HIV-Negative Status of Sexually Active College Students[J]. J Sex Res, 2019, 56(8):1023-1030. DOI: 10.1080/00224499.2018.1541961.
10李艳, 林梓铭, 谢颖倩, 等. 中国经性传播艾滋病的流行特征与防控策略进展[J].中华预防医学杂志,2018, 52(12):1309-1314. DOI: 10.3760/cma.j.issn.0253-9624.2018.12.025.
11来学惠, 舒波, 陈楚莹, 等. 中山市大学生艾滋病知识行为现状[J].中国学校卫生,2017, 38(10):1558-1559. DOI: 10.16835/j.cnki.1000-9817.2017.10.036.
12彭再如, 李庆辉, 桂建伟, 等. 湖南省高校艾滋病知识宣传教育调研分析[J].实用预防医学,2015, 22(5):570-572. DOI: 10.3969/j.issn.1006-3110.2015.05.019.
13王怡欣, 马迎华, 张冰, 等. 中国部分省市大学生艾滋病知识来源及知晓情况分析[J].中国学校卫生,2017, 38(5):657-659,662. DOI: 10.16835/j.cnki.1000-9817.2017.05.005.
14YunK, XuJ. Development and Validation of a Personalized Social Media Platform-Based HIV Incidence Risk Assessment Tool for Men Who Have Sex With Men in China[J], 2019, 21(6): e13475.
15BaralS, RaoA, SullivanP, et al. The disconnect between individual-level and population-level HIV prevention benefits of antiretroviral treatment[J]. Lancet HIV, 2019, 6(9):e632-632e638. DOI: 10.1016/S2352-3018(19)30226-7.
16陈曦. 艾滋病抗病毒治疗时代扩大检测的策略[J].中华预防医学杂志,2018, 52(12):1210-1214. DOI: 10.3760/cma.j.issn.0253-9624.2018.12.003.
17王香梅. 大学生艾滋病知识知晓及需求情况调查[J].中国公共卫生,2017, 33(4):674-677. DOI: 10.11847/zgggws2017-33-04-40.
18PrabhuS, HarwellJI, KumarasamyN. Advanced HIV: diagnosis, treatment, and prevention[J]. Lancet HIV, 2019, 6(8):e540-540e551. DOI: 10.1016/S2352-3018(19)30189-4.
19冷静, 李筱青, 叶红, 等. 合肥市两所高校大学生艾滋病知识、态度、行为的调查[J].中华疾病控制杂志,2015, 19(12):1291-1293. DOI: 10.16462/j.cnki.zhjbkz.2015.12.027.