大数据助力社会科学研究 发现数据应用之美
“大数据时代的到来是社会科学研究的春天到了。”
5月12日,我校文学院主办的“珠江人文讲坛”系列报告之二十六在文学院讲学厅举行,中国传媒大学新闻学院教授沈浩应邀前来作主题演讲。讲座上,沈浩以“大数据助力社会科学研究,发现数据应用之美”为题,围绕着大数据的相关概念,对其社会影响,未来趋势,特别是针对信息时代的社会化媒体发展和变革,如何获取数据、分析并应用解决社会和商业问题作出了解析。讲座由华南师范大学客座教授、家庭医生在线总裁郑文艺先生主持,华师师生和慕名而来的大学城其他高校的师生聆听了讲座。
“大数据时代真的来了”
“大数据时代真的来了,大数据时代对我们的生活、工作一定会产生重大影响。”讲座一开场,沈浩便提出了这一观点。他播放一段视频作为引入,视频中,美国CBS新闻台《60 Minutes》节目主持人查理·罗斯对名叫索菲亚的机器人进行了采访,机器人索菲亚甚至会主动跟人搭讪,“这显示的是现代数据、科技对语言、声音的理解已经到达了一定的水平。”沈浩解说道。
支撑机器和技术的是数据。在现场,沈浩对着手机里的翻译软件说一段话,软件即刻播放出对应的英语语音,而实现语音翻译转换的正是数据,“通过对神经网络的十个亿的大数据进行分析才发明了翻译系统。”沈浩解释。除此之外,语音导航、语音对话、谷歌地图、滴滴打车等都是数据应用的体现,它们背后蕴含着的数据已经愈来愈深刻地影响着人类的生活,“机器的背后就是数据,人类的工作渐渐为机器替代正成为一种趋势。大数据时代真的来了。”沈浩说道。
“数据的血脉在于连接,关系就是数据”
百度的作用是什么?“是将人跟信息连接在一起。”沈浩指出。在他的推荐书目《爆发》中有一个著名的观点:“人类行为的93%是可预知的。”沈浩对这句话的解读着眼在“人类”一词上,他提出,当用大数据分析人类行为时,研究的对象不是“自然人”或“经济人”,而是“社会人”,即大数据研究的是社会中的人的行为。在社会中,每三个人中的两两之间就可以连接进而产生一定的关系,“数据的血脉在于连接,关系就是数据。”
为进一步解说,沈浩用软件ywords绘制了一张人物关系网络图,在这张相互连接的网状图中,选择四个关键的连接节点将其删除,原本浑然一体的网络图即刻分崩离析,由此可说明人类个体与社会的连接。
人是社会关系的总和,每个人都“产生”数据。沈浩指出,数据的最重要本质是挖掘具体个体产生的社会行为。以恐怖分子本·拉登为例,当他打电话时便产生了无数的数据,而这些数据为分析追踪他提供了依据。这正是数据对人类互相连接中产生的社会行为所起的侦测作用,通过对人类在互相关联中产生的社会行为进行分析预测,为社会管理提供依据。
“我们要拥抱大数据时代”
在讲座上,沈浩展示了一张自己的“词云”画像,这幅特殊的画像由许多大小各异的“关键词”构成。实际上,词云就是数据可视化的形式之一。制作词云图时,对文本数据中出现频率较高的“关键词”,在图上予以视觉上的突出,形成“关键词云层”或“关键词渲染”,过滤大量非关键信息,受众一眼就可以领会文本的主旨。
词云图的制作依赖语料和抽取语料关键词,而这正是计算机处理数据时中文分词(即将一个汉字序列切分成一个一个单独的词)能力的体现。与此相关应用还有很多,例如研究者可以将国家总理李克强的政府工作报告做语料分析,得出报告中主题词的词频,从而学习和掌握报告的精神。
沈浩还提出,在大数据的应用中,可以通过编程实现计算机自动识别文本。他举了个有趣的例子,研究者甚至可以把《红楼梦》文本输入计算机,给贾宝玉和林黛玉、薛宝钗分别建立回归方程,通过数据来判断林黛玉和薛宝钗谁最有可能嫁给贾宝玉。
数据应用已无处不在,“大数据时代来到了,它将使我们的工作、生活和思维方式改变。”沈浩认为,人类生活在社会中就不得不与社会打交道,而如何从海量的数据中发现知识、寻找隐藏在其中的关系及利用价值,需要人们拥有更好的数据洞察力,由此他提出:“我们要拥抱大数据时代”。
“我们传统的观点是站在传播的角度看待问题,沈教授的讲座让我们不再局限于这种角度,而是站在数据的角度去看待问题,这能让我们得出更客观、更科学的观点。”石牌校区新闻与传播专业的一位学生在讲座后分享道。讲座现场也有来自暨南大学的师生,他们就如何将数据应用到数据研究提出疑问,与沈浩做了深入交流。
作者/通讯员:欧敏敏 沈园 | 来源:文学院 | 编辑:杨柳青