最近,有关美国和欧洲流行数据的“预测”每日博客在 上流行。
这是多么神奇?简要提及以下两个或三个:
从3月27日开始,博客连续10天对美国感染人数的预测准确性超过90%。其中,4月4日的准确率接近100%(预测为276727,实际为276931)。
该博客在3月31日预测,当受测人数在8到10天内超过200万人时,美国的流行将以悬崖般的方式落下。 7天后,即4月6日,美国的流行数据将出现悬崖般的下降,增幅从12.43%下降至8.13%-这篇文章引起了巨大反响,观看次数超过134万。
自3月27日以来,该博客对欧洲感染人数的平均每日预测准确率已达到97%,在4月的前五天该预测准确率接近100%。
李志斌对美国感染人数的预测(乐观),准确率高达90%
对此,一些 友评论说:伟大的上帝,病毒绝对听您的话。
那么,这个“神算子”是如何制成的呢?
毕业于清华大学,有8年的市场预测经验
李志斌1980年至1985年在清华大学计算机系学习。1985年至1994年,他在中国科学院学习并工作。 30岁时,他曾担任副研究员,产品部门主管和主管助理。他于1994年移居新西兰,并在香港定居至今。他目前是香港智佳物流软件有限公司和香港艺晶科技有限公司的总经理。
李志斌博客的屏幕截图
在李志斌所在的两家公司中,前者的主要业务是物流系统(物流系统)的开发。后者具有香港中文大学的背景,其主要业务是市场需求预测(Market Demand Forecast),它为企业提供数据分析和预测产品需求以及未来特定区域内价格波动的趋势。 3至6个月。
李志斌在接受雷锋 的采访时说,自2012年以来,他进入了数据分析和预测领域。由于香港中文大学宜静公司的背景,李志斌还从中学到了很多东西。教授。
此外,从技术角度来看,李志斌在清华大学计算机系的学习经验也使他在软件建模和大数据分析方面形成了完整的知识体系。同时,清华大学的科技风格和背景,也使他更加注重数据,证据和实例,而不是结论。
所有这些使李志斌对“数据”非常敏感。
从那时起,李志斌每天早上起床集中进行数据收集。最初,它只是来自武汉,湖北和香港的数据,后来只是来自内地其他地区的数据。 1月下旬,收集了海外数据并将其编译为Excel表。使用您自己的专业知识进行数据建模,并将新闻中的数据合并以分析和判断官方通知数据。
起初,李志斌只在清华大学的同学之间分享数据和观点。后来,他每天也花30分钟写博客并在新浪博客上发布。如今,这已成为一种日常习惯。
当然,对于李志斌而言,除了收集,整理和分析常规数据外,他还不断地结合自己的专业知识来构建数据模型,并不断补充和验证该模型的参数以达到预期效果。
3月27日,李志斌在数据模型趋于稳定的基础上,首次提供了美国感染的预测数据。 3月28日,他提供了欧洲感染的预测数据。
李志斌对欧洲感染人数的预测,平均准确率高达97%
在他的预测中,不仅包括感染病例的数量,还包括感染的增长率,高峰时间,感染总数,总死亡人数,死亡率和其他数据-当然,感染次数是他是衡量预测准确性的重要指标。
甚至李志斌也认为他的预测数据不会如此准确。
但是,李志斌强调,没有人能够100%准确地预测未来,因此我们必须进行预测。他说:
预测是一个动态过程,因为许多直接的措施,事件和其他意外因素是不可预测的。此时,需要将这些意外事件和决策以及其他因素更改为参数调整,然后将其反馈给预测模型以使其运行。更确切。我的预测模型和预测参数也在不断改进中。
无论软件多么出色,都可以100%准确地预测
李志斌的预测离不开两个核心要素:数据和预测模型。
首先是数据的可信度问题。李志斌在接受采访时说,他从一月份开始每天收集数据。最初,只有武汉和香港有数据。到目前为止,每天都在数百个国家和地区收集数据。
李志斌强调,在数据收集与分析过程中,有必要识别出数据冲突的发生。特别是在官方通知的数据量相对较大的情况下,将使用许多方法(包括新闻数据)来检查不同的区域。数据之间可能存在数据冲突。数据冲突点越多,数据的可信度就越低。
同时,在判断数据的真实性的过程中,还取决于数据的发布速度。数据发布的频率越高,可信度越高;而在南亚和东南亚发布的数据则越少,可靠性越低。
美国疾病预防控制中心官方 站上的流行情况
另外,在判断数据的可信度时,还可以借用新闻数据进行比较。李志斌告诉雷锋。例如,如果医生与患者之间的比例相对稳定,则新闻中 告的医务人员人数可用于推断患者人数。
他说,实际上,所有数据都可能存在一些人为错误或统计错误。没有一个区域具有100%的可靠性;但相对而言,美国的数据冲突较少,可靠性更高。欧洲数据不如美国可靠。由于西欧和东欧之间的不平衡,将其平均。但是,印度,东南亚,日本和其他地区的数据似乎存在一些问题。缓慢的数据发布和许多数据冲突影响了数据可信度的设置。
2月底,李志斌根据以前基于国内数据进行的建模和验证,开始预测美国和欧洲的流行数据。因此,李志斌根据数据创建了一个预测模型,实际上这是一个极其复杂的模型,它添加了数百个参数,其中包括20到30个重要参数,分为以下三类:
第一类是流行病参数-在不同地区/国家/城市诊断出的人数,人口,每天新诊断的人数,嫌疑犯的人数,每日检查的人数,死亡人数,治愈人数(包括自我修复的人数),咨询人数,招生人数(严重人数)。
第二类参数与地区/城市/国家/地区的特征相关,例如城市类型(古城,现代城市,乡村),人口密度,温度,天气(大雨,下雨,有雾,晴天等),城市中60岁以上的老年人口比例,城市平均年龄,城市建设状况(主要是下水道的状况)。
第三类参数是关于资源和管理能力的,包括医疗资源,床位数, 会组织能力,信息透明度,管理方法等。
李志斌说,在实际操作过程中,一般先用Excel收集数据,然后将其导入后端数据库,再用他开发的软件模型(包含算法)得出三个结论,最后他将人为地判断结果-他强调说,有许多无法量化的参数,例如 交情感;因此需要人类的参与。
他还说:无论软件多么出色,它都不可能100%准确。
当大船和小艇同时遇到冰山时
在采访中,Lei Feng.com发现,毕业于清华大学的李志斌具有超越数据分析的先进见解和思维。
例如,在建模过程中,李志斌从国内数据入手。这些数据不仅对李志斌的建模过程产生了重要影响,而且使他能够得出一些观察结果。因此,在武汉关闭前一天,他在“清华80同学”中与同学们分享了两个想法:
首先,武汉应该立即关闭城市,因为数据增加太可怕了。
第二是在湖北特别是武汉地区迅速建立了二十或三十家 格医院。作为疫情治疗中心,所谓的野战医院,或后来的方舱医院,由于疫情发展得太快,因此,隔离患者比治疗预防和控制措施更为关键。
这些想法在课堂上引起了很多讨论,当然也有疑问和反对,但更多的是学生的积极参与,他们提出了许多更好的想法和建议,从而受益匪浅。后来,事实证明这些想法是相关的,并且政府采取的后续措施也证实了这一点-有关野战医院的想法要提前两个星期。
除了上述建议,李志斌还发现,在数据分析和模型构建过程中,已成为流行病暴发的城市通常还具有以下特征:
老镇;
潮湿的气候
温度为5-15度;
污水处理系统的老化;
老年人的比例很高。
值得一提的是,在不同国家爆发的城市,如中国的武汉,韩国的大邱,意大利的米兰,伊朗的德黑兰和美国的纽约,通常都符合这些特征。
关于这些特征的归因,李志斌强调说,它包含了个人主观和合理猜测的混合,但是在最终反映到预测结果中之前,还经过一系列结果的验证。他还说,事实上,在参数方面,它还涉及 会组织方法,管理模式, 会信息透明度等问题,因此他还将预测结果设置为悲观或乐观。
雷锋 指出,根据李志斌在4月4日给出的悲观预测,他对美国感染人数的整体预测准确性高达96%。
李志斌对美国感染人数的预测(悲观),准确率高达96%
然而,在一次独家采访中,尽管有人参加,李志斌强调了数据在决策中的绝对地位。他说,即使流行病被搁置,在日常决策过程中,数据的重要性也可以说是100%。这些数据不仅应该是真实的,而且应该是全面和透明的,即使有人在后续过程中的参与也基于对这些数据的判断,数据是决策的基础。
那么,基于数据的决策覆盖了多少?
李志斌认为,甚至可以预见到诸如新冠心病肺炎等一系列公共事件,这是偶然的,并且包含诸如政治和经济等复杂的 会因素。
他说,类似于传染病的情况,其发展有其特定的模式。有规律的机会。我们可能无法掌握100%准确的模式,但是在一定比例的常规模式下,我们仍然可以做出一些判断和决策-当然前提是要有大量有效数据。
由此,李志斌还谈到了一个有趣的比喻:
一艘大船和一艘小船,当他们突然遇到冰山时,他们必须转弯。但相对而言,这艘大船的结果显然更可预测。船立即被更换,但是大船的体积太大且具有惯性,因此撞冰山的可能性更大-这种惯性是定律,而船本身的体积就是数据量。
李志斌最后说,数据量越大,数据越准确,相关信息越透明,则更容易进行预测,并且在发生此类团体事件时预测也更加准确。
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!