美国华人网FuninUSA|唐人社区|北美华人论坛:找好货,找礼品卡,找折扣,找工作,找内推,找项目,找股票

 找回密码
 立即注册
  • AlphaGo大升级!柯洁:我输得没脾气
  • 细思极恐!AlphaGo已开始摆脱人类依赖……
  • 到底谁吞了30%的打赏?网友们吵翻了
  • 勒索病毒爆发!卡巴斯基:死守XP活受罪
  • 陌陌一季度净利润5.6亿元:暴涨11.4倍
  • 美媒:中国野生大雁因太乖反倒于己不利数量不断下降
  • 德媒:“社会信用体系”计划将让中国人的诚信变得更好
  • 聂卫平:柯洁与AlphaGo差距太大 将0:3完败
  • 新京报编委王海涛将出任搜狐网总编
  • 马云、王健林豪宅对比任正非:最接地气的是他
  • 被美国收养的子女不能为亲属办绿卡
  • 特斯拉市值目前500亿美元,到2020年呢?
  • 100=7500万 !7年前你对比特币爱理不理 现在的它你高攀不起
  • 福特CEO完成交接
  • 中国期货仍混沌 海外交易所现良机
  • 意不意外?惊不惊喜?通货膨胀来了……
  • IBM:这个蓝色巨人正在老去?
  • Jim Cramer:银行帮不了你,只有美联储可以
  • 厚积薄发 AMD对抗负面影响
  • 洗把脸冷静一下,你对这个牛市还有多少信心
Logo1-800-PetMeds Free Shipping $49Take $10 Off Your First Order w/code: SAVE10 - 234 x 60
ASICS AmericaPagoda Piercing Banner 234x60Sierra Trading Post
搜索
查看: 3033|回复: 2

内推面经 -数据科学之江湖兵器谱 (转载)- 唐人社区|北美华人论坛

[复制链接]

21

主题

48

帖子

96

积分

新手上路

Rank: 1

积分
96
QQ
发表于 2016-10-18 02:52:09 | 显示全部楼层 |阅读模式
分享到:
{$content}

唐人社区-北美华人论坛-内推面经版-数据科学之江湖兵器谱 (转载)


  JobHunting
标 题: 数据科学之江湖兵器谱 (转载)



DataSciences
标 题: 数据科学之江湖兵器谱



【注】原发于微信公众号:data_wisdom


数据江湖,风起云涌。各路英豪,群雄逐鹿。

这是一个数据科学最好的时代,也是数据江湖最乱的时代。

那么在这么一个特殊的江湖里面浪,有什么兵器是值得我们去关注的呢?这篇文章列举
了一些常用方法(刀剑),并不涵盖工具与平台。就先让我们一起去看看这个排名不分
先后左右的兵器谱。

数据科学家Vincent Granville博士发表博文列举了数据科学家常用的45种技术。这是
个很适合初学者去逐个了解的列表。当然,这并不代表数据科学(统计学)的全部。虽
然他并没有提出自己的详细总结,但是有志于学习数据科学的同学不妨初步有个印象,
有不太熟悉的topic可以进一步去了解一下。另外我在后面也补充了我认为也值得学习
的领域,很多人都会在日常的数据实践中用到。多学有益于身心健康。

首先需要说明的是,这些技术只是大概涵盖了大部分数据科学家以及相关领域的实践者
日常用的方法。这一般意味着他们或使用第三方的解决方案(比如R和Python里面提供
的相关package),或者自己需要调整或者重新设计合适的工具。

废话少说,列举如下:

1. 线性回归 Linear Regression
2. 逻辑回归 Logistic Regression
3. 刀切回归 Jackknife Regression *
4. 密度估计 Density Estimation
5. 置信区间 Confidence Interval
6. 假设检验 Test of Hypotheses
7. 模式识别 Pattern Recognition
8. 聚类(或者无监督学习) Clustering - (aka Unsupervised Learning)
9. 有监督学习 Supervised Learning
10. 时间序列分析 Time Series
11. 决策树 Decision Trees
12. 随机数 Random Numbers
13. 蒙特卡洛模拟 Monte-Carlo Simulation
14. 贝叶斯统计 Bayesian Statistics
15. 朴素贝叶斯 Naive Bayes
16. 主成分分析 Principal Component Analysis - (PCA)
17. 联合学习方法 Ensembles
18. 神经网络 Neural Networks
19. 支持向量机 Support Vector Machine - (SVM)
20. 最近邻方法 Nearest Neighbors - (k-NN)
21. 特征选择(变量削减) Feature Selection - (aka Variable Reduction)
22. 指数化(编目化)Indexation / Cataloguing *
23. 空间统计建模(时空统计)(Geo-) Spatial Modeling
24. 推荐引擎 Recommendation Engine *
25. 搜索引擎 Search Engine *
26. 归因模型 Attribution Modeling *
27. 协同过滤 Collaborative Filtering *
28. 规则系统 Rule System
29. 连锁分析 Linkage Analysis
30. 关联规则 Association Rules
31. 打分引擎 Scoring Engine
32. 分割(特指数据分割)Segmentation
33. 预测建模 Predictive Modeling
34. 图数据分析 Graphs
35. 深度学习 Deep Learning
36. 博弈论 Game Theory
37. 数据填充 Imputation
38. 生存分析 Survival Analysis
39. 统计套利 statistical Arbitrage
40. 推举建模 Lift Modeling
41. 产量优化 Yield OPTimization
42. 交叉验证 Cross-Validation
43. 模型拟合 Model Fitting
44. 关联算法那 Relevancy Algorithm *
45. 实验设计 Experimental Design

以上是Granville博士的观点。

以我自己的经验,一般数据科学家并不会涉及这上面的所有方法,而且很多重要的技术
也没有在上面出现,比如在我的观点中,一下对于日常的数据战场特别有帮助的武功

a 凸优化(convex analysis)
b 组合优化(combinatorial optimization)
c 半监督学习 (semi-supervised learning)
d 采样(sampling)
e 强化学习 (reinforcement learning)
f 自组织映射 (self-organized map)
g 独立成分分析 (ICA)
h 降维 (dimensioin reduction)
i 最大似然估计 (MLE)
j 通用核方法 (general kernal method)
k 模型选择 (model selection)
l 样条方法 (spline method)
m 正则化 (regularization)
n 归一化 (normalization)
o 经验贝叶斯 (empirical bayes)
p EM算法 (EM algorithm)
q 变分发 (variational method)
r 图模型 (graphical models)
s 可视化 (visualization)
t 高斯混合模型 (Gaussian mixture models)
u 异常检测(abnormity/outlier detection)
v 方差分析 (ANOVA)
w 遗传算法 (genetic algorithm)
x 算法表现评估 (algorithm performance evaluation)
y 计算机视觉主流方法 (computer vision)
z 自然语言处理主流方法 (Natural language processing)

天下功夫,万变不离其宗。所有的套路与武器,都是为了在数据的海洋里面寻找到目标
问题的解药。方法无所谓高低,招数无所谓贵贱。能够达成你的目标的,就是最适合你
当下的武器。

希望这些对大家的数据实践有所帮助。


参考:
http://www.datasciencecentral.com/profiles/blogs/40-techniques-used-by-data-scientists

--
http://user.qzone.qq.com/176497662/main
【美国亚马逊代购拼单群】423286988
回复 百度谷歌雅虎搜狗搜搜有道360奇虎

举报

4

主题

262

帖子

237

积分

注册会员

Rank: 2

积分
237
QQ
发表于 2016-10-18 05:35:45 | 显示全部楼层
JobHunting
标  题: 数据科学之江湖兵器谱 (转载)



DataSciences
标  题: 数据科学之江湖兵器谱



【注】原发于微信公众号:data_wisdom


数据江湖,风起云涌。各路英豪,群雄逐鹿。

这是一个数据科学最好的时代,也是数据江湖最乱的时代。

那么在这么一个特殊的江湖里面浪,有什么兵器是值得我们去关注的呢?这篇文章列举
了一些常用方法(刀剑),并不涵盖工具与平台。就先让我们一起去看看这个排名不分
先后左右的兵器谱。

数据科学家Vincent Granville博士发表博文列举了数据科学家常用的45种技术。这是
个很适合初学者去逐个了解的列表。当然,这并不代表数据科学(统计学)的全部。虽
然他并没有提出自己的详细总结,但是有志于学习数据科学的同学不妨初步有个印象,
有不太熟悉的topic可以进一步去了解一下。另外我在后面也补充了我认为也值得学习
的领域,很多人都会在日常的数据实践中用到。多学有益于身心健康。

首先需要说明的是,这些技术只是大概涵盖了大部分数据科学家以及相关领域的实践者
日常用的方法。这一般意味着他们或使用第三方的解决方案(比如R和Python里面提供
的相关package),或者自己需要调整或者重新设计合适的工具。   

废话少说,列举如下:

    1. 线性回归     Linear Regression
    2. 逻辑回归     Logistic Regression
    3. 刀切回归     Jackknife Regression *
    4. 密度估计     Density Estimation
    5. 置信区间     Confidence Interval
    6. 假设检验     Test of Hypotheses
    7. 模式识别     Pattern Recognition
    8. 聚类(或者无监督学习)        Clustering - (aka Unsupervised Learning)
    9. 有监督学习    Supervised Learning
    10. 时间序列分析    Time Series
    11. 决策树    Decision Trees
    12. 随机数    Random Numbers
    13. 蒙特卡洛模拟    Monte-Carlo Simulation
    14. 贝叶斯统计    Bayesian Statistics
    15. 朴素贝叶斯    Naive Bayes
    16. 主成分分析    Principal Component Analysis - (PCA)
    17. 联合学习方法    Ensembles
    18. 神经网络        Neural Networks
    19. 支持向量机    Support Vector Machine - (SVM)
    20. 最近邻方法    Nearest Neighbors - (k-NN)
    21. 特征选择(变量削减)    Feature Selection - (aka Variable Reduction)
    22. 指数化(编目化)Indexation / Cataloguing *
    23. 空间统计建模(时空统计)(Geo-) Spatial Modeling
    24. 推荐引擎    Recommendation Engine *
    25. 搜索引擎    Search Engine *
    26. 归因模型    Attribution Modeling *
    27. 协同过滤    Collaborative Filtering *
    28. 规则系统    Rule System
    29. 连锁分析    Linkage Analysis
    30. 关联规则    Association Rules
    31. 打分引擎    Scoring Engine
    32. 分割(特指数据分割)Segmentation
    33. 预测建模    Predictive Modeling
    34. 图数据分析    Graphs
    35. 深度学习        Deep Learning
    36. 博弈论        Game Theory
    37. 数据填充        Imputation
    38. 生存分析        Survival Analysis
    39. 统计套利        statistical Arbitrage
    40. 推举建模        Lift Modeling
    41. 产量优化        Yield Optimization
    42. 交叉验证        Cross-Validation
    43. 模型拟合        Model Fitting
    44. 关联算法那    Relevancy Algorithm *
    45. 实验设计        Experimental Design

以上是Granville博士的观点。

以我自己的经验,一般数据科学家并不会涉及这上面的所有方法,而且很多重要的技术
也没有在上面出现,比如在我的观点中,一下对于日常的数据战场特别有帮助的武功

a 凸优化(convex analysis)
b 组合优化(combinatorial optimization)
c 半监督学习 (semi-supervised learning)
d 采样(sampling)
e 强化学习 (reinforcement learning)
f 自组织映射 (self-organized map)
g 独立成分分析 (ICA)
h 降维    (dimensioin reduction)
i 最大似然估计 (MLE)
j 通用核方法 (general kernal method)
k 模型选择 (model selection)
l 样条方法 (spline method)
m 正则化 (regularization)
n 归一化 (normalization)
o 经验贝叶斯 (empirical bayes)
p EM算法 (EM algorithm)
q 变分发 (variational method)
r 图模型    (graphical models)
s 可视化    (visualization)
t 高斯混合模型    (Gaussian mixture models)
u 异常检测(abnormity/outlier detection)
v 方差分析 (ANOVA)
w 遗传算法 (genetic algorithm)
x 算法表现评估 (algorithm performance evaluation)
y 计算机视觉主流方法 (computer vision)
z 自然语言处理主流方法 (Natural language processing)

天下功夫,万变不离其宗。所有的套路与武器,都是为了在数据的海洋里面寻找到目标
问题的解药。方法无所谓高低,招数无所谓贵贱。能够达成你的目标的,就是最适合你
当下的武器。

希望这些对大家的数据实践有所帮助。


参考:
http://www.datasciencecentral.com/profiles/blogs/40-techniques-used-by-data-scientists

--
http://user.qzone.qq.com/176497662/main

28

主题

1177

帖子

2328

积分

金牌会员

Rank: 6Rank: 6

积分
2328
QQ
发表于 2016-10-28 11:31:57 | 显示全部楼层
路过的帮顶
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

美国华人网|唐人社区|什么值得买FunInUSA.net发布的内推面经 -数据科学之江湖兵器谱 (转载)- 唐人社区|北美华人论坛帖子由网友提供或转载于网络,若发布的内推面经 -数据科学之江湖兵器谱 (转载)- 唐人社区|北美华人论坛侵犯了您的权益,请联系我们.
Sasa.com

Copyright ©2011 FunInUSA.NET All Right Reserved.  Powered by Discuz! X3.0 小黑屋

本站信息均由会员发表,不代表美国华人网FunInUSA|唐人社区的立场,如侵犯了您的权利请发帖投诉  技术支持: 美国华人网FunInUSA|唐人社区

安全联盟认证 安全联盟认证

快速回复 返回顶部 返回列表