博士圈

 找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 949|回复: 0

Health care领域R&D部门数据科学家的工作分享

[复制链接]

26

主题

41

帖子

217

积分

中级会员

Rank: 3Rank: 3

积分
217
发表于 2022-10-20 13:44:40 | 显示全部楼层 |阅读模式
以下是给大家总结的一些Q&A


面试者有什么样的背景和经历,面试官会更愿意给offer?
首先招人的策略并不一定是普遍适合的,因为每个公司都有自身的特殊情况,一大部分的Data Scientist都要做research,所以公司会看重面试者是否有research的经历。如果是纯本科生,从来没有做过research或从来没有写过paper,那这个人可能会不了解工作流程。
而对于很多master和phd来说,即使他们没有做过medical或者machine learning方面的paper,也会对如何做一个research paper有基本概念。
除此之外,工作选择是双向的,除了面试官的青睐,也需要链接candidates是不是喜欢这种类型的工作。有一些人更偏重于machine,比如master本身就是纯machine的行业,有可能更喜欢一些比较高级的技巧,或者一些比较deep learning和fancy的工作。
我们公司现在用model的情况比较少,现阶段主要的还是一些比较简单的模型。对我来说,因为团队比较大,各种类型或背景的人都会招一些。当然,不同background的面试者有不同的面试标准。如果是没有医疗或machineLearning之类的背景,是从其他STEM专业转过来的,我还是希望他们有比较好的research backeground,这样会比较有帮助;如果本身有medical或者machine learning background,那针对不同岗位也会有各自不同的要求。


公司的R&D与学术界的区别
这部分工作的内容会有一点像学校,但我们做的比较快。很多时候我们也会着重看机会,如果有东西可以做的出来就做,如果做不出来就move on。我们各种类型和topic的东西都会做一些,做完了以后发paper,申请基金项目,以及和一些医院合作。
此外,我们也会和一些厂商,做一些sepsis和kidney injury的detection。这一类product做到后期的时候,需要帮合作方做大量的数据分析,这部分工作对machine learning本身的技术要求没有那么高,而数据预处理方面需要做很多东西,也需要比较仔细,有的时候可能还需要专门找人做education和labeling等工作,并且整个流程都要符合规范。



是否需要医药背景知识?
从Data Scientist的角度来说,这个领域对domain knowledge的要求不会特别高,比如sepsis或者AKl code都是专门有人看如何定义这个疾病的发生时间等信息。正如前面嘉宾所说,我们可以找到medical或者lCD code expert来协助找到要用的code。当然,如果你有一些医疗的背景知识,这可能会有一些帮助,能够少走一些弯路。但是对于Data Scientist本身来说,这个并没有明确的要求。尽管你没有医疗方面的经历,上手做个project就能了解一些domain knowledge。

对于医疗的数据量以及input dimension来说,不太会用到deep learning的相关技术,绝大部分时候使用比较简单的classification model就可以解决很多问题。我在五六年前就加入了这家公司,刚开始当了一年半的lead machine learning engineer,早期做一些简单的XGBoost modeling,也做过一些data science和engineer方面的各种IT Infrastructure的工作。后来我
跳槽去另一个公司做了三年的NLP,这段工作经历跟医疗领域不相关,做的是news和intelligence方面的NLP。在这之后,由于现在的这家公司发展得不错,之前的老板又把我招回去了。据我个人感受来说,medical field整体前进得虽然比较慢,但还是有进步的,尤其是这几年经历了COVID以后,medical公司有了很大的增长。
我现在带领了整个包括数据、工程和一些科学协作的团队,大概四五十个人。从技术的角度上来说,我们主要的工作方向也是一些classification model.。值得一提的是,以product的角度上来看,实际上model development作为一个商品不是很复杂,但是我们的Data Scientist也需要做很多基本的R&D,发一些paper等工作。因此,我的团队里还会有一个协作的部门,他们会帮助写各种资金申请以及一些文章的各种工作。


Health care领域DS的工作内容
嘉宾A:
我目前在一个start-ups公司工作,主要涉及的内容是Clean Code Decision Tools,简单来说就是看各种急性或慢性的医疗情况。相较于其他嘉宾的工作而言,我们的工作反而相对比较传统,基本上是做一些medical condition的prediction。举个例子,我们会做一些classification的model,用来识别未来几小时或几天里,哪些病人可能会是高危的,这样能够方便医生尽早采取措施或者更密切的关注这个病人,从而降低病人的死亡率或平均的留院时间。
此外,对于一些慢性病的预测,比如病人在接下来的一年或两年内是否会有一些stroke events,我们希望能够通过一些方法识别出一个sub population,用一些预防类药物辅助同时和原来的药物结合。以这样的形式,药物的效果可能会更好。现阶段行业内LP或者一些比较高级的模型会比较少,大部分模型都是线性模型、trees、XGBoost、Random Forest的类型。我们会做大量的classification model,模型中输入的model dimension基本上都是病人的various signs,基本的信息,以及他的一些医疗历史,所以input dimension大概是50到100,而output是一个binary classification mode.


给已经转行到healthcare行业的DS的建议
我个人觉得医疗行业变化得比较慢,但是从Data Scientist的角度上来说,这个变化还是挺快的。行业内现阶段有些模型,包括一些预训练的模型都已经非常成熟了。而且,四五年前的那些技能和现在的技能不同,在四五年前,你可能确实需要对TensorFlow或者Pytorch之类的技能比较熟练,并且可以自己改一些architecture等。但就现目前而言,很多技能会更着重于如何具体解决business问题。总而言之,从小公司、一些project和product的角度上
来说,你可能只需要了解一些比较成熟的方法,并且具体运用到问题当中去就可以了。就个人成长而言,在年轻的时候,先把技术掌握好,等技术达到一定程度之后,再进一步培养能具体解决business问题的能力。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|博士圈

GMT+8, 2024-12-16 21:45 , Processed in 0.018720 second(s), 20 queries .

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表