追踪网站高层业务或功能特定的测量数据

平日用这些数据追踪网站事宜。就Flickr来说,表现上载照片数、新用户注册数、平均照片年夜小、总的磁盘空间消费量、卖出出了若干Pro账号、有若干乞助信息挂号及解决了若干,等等。因为这些数据一般用来做历久趋向剖析,以便进行产物猜测或容量计划,是以,以天为采集频度就够了。增长分辩率,一天多采几回,对成果没有任何影响,反而增长生成报表的时光,数据移动起来也很麻烦。天天采集一次这些数据很简略,天天夜里运行一个cron功课即可,将数据存入复制用的数据库子机,这台数据库子机就是用来处置这些数据的。

因为这些数据存于数据库中,并且日期是恒定的,所以对这些数据进行跨地区处置或相干性剖析就很直接了。

例如,因为节沐日时代,新的数码相机经常被作为礼品赠予,所以,与日常平凡比起来,节沐日时代的平均照片上载量有很年夜增加,就不奇异了。有了这些数据,我们可以针对雷同日期盘算出其他值来,所以,我们可以或许毫无艰苦地不雅察平均上载年夜小是若何增长磁盘空间消费的(因为照片的原始尺寸变年夜了),从而响应地增长FlickrPro账号的订购量(与免费账号比拟,Pro账号没有容量限制)。

有了这些高层数据之后,你的机构中面向产物的那些人对这些数据也抱有极年夜的兴致,你一点都不消觉得惊奇。固然你可能是用磁盘空间消费数据为存储需求做容量计划,但他们却尚有意见,好比,这些应用情形的数据可以赞助他们做功效宣布的时光表。网站应用情形有助于制订产物路线图,产物路线图有助于容量计划,容量计划有助于预算以及基本架构的前程,等等。你很光荣是以一种简略且可移植的格局存储这些数据的,因为机构中的任何人都可能用到这些数据。

对于运用层面的数据,最有效的是可以或许跟踪用户的交互情形。好比一个社会收集站点,用户可以与其他用户成为为“石友”、上载照片,或在其他用户页面上揭橥评论。记载这些事宜是不克不及用正规的时光距离的办法的,这与采集CPU测量数据分歧,采集CPU数据用的是正规的时光距离办法一好比说,每隔15秒进行采样。这种办法与前述将天天产生的事宜进行累加的方法也分歧。将这些非周期性事宜与周期性事宜进行相干性剖析时,要确保时光标准是固定的。

Flickr的这种非正规类型的一个例子如下:我们宣布了一个功效,让你导入各类邮件地址簿,并将这些地址簿中的名字及邮箱与你还不是接洽人的网站成员进行联系关系,然后批量添加接洽人。假如我们只是将天天发生了若干接洽人进行累加的话,我们在图上就会看到谁人数据点上有个跳变,但这个功效宣布后,并没有看到跳变,在随后的数小时一向到下周,也都没有看到。同样的情形还有效户对比片进行标注(tagging)的功效。懂得这些信息有助于我们未来若何宣布网站扶植新功效,那就是一在宣布功效之前,我们应当预备数据采集(对这些情形而言,就是一张MYSQL的汇总表)。

相關文章: