您现在的位置是：首页 > 云平台

当前栏目

【SQL开发实战技巧】系列（二十一）：数据仓库中时间类型操作（进阶）识别重叠的日期范围，按指定10分钟时间间隔汇总数据

识别日期 SQL 数据开发操作系列实战

2023-09-14 09:10:48 时间

系列文章目录

文章目录

系列文章目录
前言
一、识别重叠的日期范围
二、按指定间隔汇总数据
总结

前言

本篇文章讲解的主要内容是：如何识别重叠的日期范围、日期出现次数、确定当前记录和下一条记录之间相差的天数
【SQL开发实战技巧】这一系列博主当作复习旧知识来进行写作，毕竟SQL开发在数据分析场景非常重要且基础，面试也会经常问SQL开发和调优经验，相信当我写完这一系列文章，也能再有所收获，未来面对SQL面试也能游刃有余~。

一、识别重叠的日期范围

下面是一个有关工程的明细数据：

create or replace view zyd as 
SELECT 7782 empno,'CLARK'  as ename,1 as proj_id,date'2023-06-16' proj_start,date'2023-06-18' proj_end from dual union all
SELECT 7782 empno,'CLARK'  as ename,4 as proj_id,date'2023-06-19' proj_start,date'2023-06-24' proj_end from dual union all
SELECT 7782 empno,'CLARK'  as ename,7 as proj_id,date'2023-06-22' proj_start,date'2023-06-25' proj_end from dual union all
SELECT 7782 empno,'CLARK'  as ename,10 as proj_id,date'2023-06-25' proj_start,date'2023-06-28' proj_end from dual union all
SELECT 7782 empno,'CLARK'  as ename,13 as proj_id,date'2023-06-28' proj_start,date'2023-07-02' proj_end from dual union all
SELECT 7839 empno,'KING'   as ename,2 as proj_id,date'2023-06-17' proj_start,date'2023-06-21' proj_end from dual union all
SELECT 7839 empno,'KING'   as ename,8 as proj_id,date'2023-06-23' proj_start,date'2023-06-25' proj_end from dual union all
SELECT 7839 empno,'KING'   as ename,14 as proj_id,date'2023-06-29' proj_start,date'2023-06-30' proj_end from dual union all
SELECT 7839 empno,'KING'   as ename,11 as proj_id,date'2023-06-26' proj_start,date'2023-06-27' proj_end from dual union all
SELECT 7839 empno,'KING'   as ename,5 as proj_id,date'2023-06-20' proj_start,date'2023-06-24' proj_end from dual union all
SELECT 7934 empno,'MILLER' as ename,3 as proj_id,date'2023-06-18' proj_start,date'2023-06-22' proj_end from dual union all
SELECT 7934 empno,'MILLER' as ename,12 as proj_id,date'2023-06-27' proj_start,date'2023-06-28' proj_end from dual union all
SELECT 7934 empno,'MILLER' as ename,15 as proj_id,date'2023-06-30' proj_start,date'2023-07-03' proj_end from dual union all
SELECT 7934 empno,'MILLER' as ename,9 as proj_id,date'2023-06-24' proj_start,date'2023-06-27' proj_end from dual union all
SELECT 7934 empno,'MILLER' as ename,6 as proj_id,date'2023-06-21' proj_start,date'2023-06-23' proj_end from dual;

select * from zyd;

     EMPNO ENAME     PROJ_ID PROJ_START  PROJ_END
---------- ------ ---------- ----------- -----------
      7782 CLARK           1 2023-6-16   2023-6-18
      7782 CLARK           4 2023-6-19   2023-6-24
      7782 CLARK           7 2023-6-22   2023-6-25
      7782 CLARK          10 2023-6-25   2023-6-28
      7782 CLARK          13 2023-6-28   2023-7-2
      7839 KING            2 2023-6-17   2023-6-21
      7839 KING            8 2023-6-23   2023-6-25
      7839 KING           14 2023-6-29   2023-6-30
      7839 KING           11 2023-6-26   2023-6-27
      7839 KING            5 2023-6-20   2023-6-24
      7934 MILLER          3 2023-6-18   2023-6-22
      7934 MILLER         12 2023-6-27   2023-6-28
      7934 MILLER         15 2023-6-30   2023-7-3
      7934 MILLER          9 2023-6-24   2023-6-27
      7934 MILLER          6 2023-6-21   2023-6-23

15 rows selected

通过数据可以看到,有很多员工在旧的工程结束之前就开始了新的工程（如员工 7782 的工程4结束日期是6月24日,而工程7开始日期是6月22日）,现要求返回这些工程时间重复的数据。
前面介绍了Oracle中有两个分析函数LAG和LEAD,分别用于访问结果集中的前一行和后一行。我们可以用分析函数LAG取得员工各自的上一个工程的结束日期及工程号,然后与当前工程相比较。

1、取信息

SQL> select empno,
  2         ename,
  3         proj_id as 工程号,
  4         proj_start as 开始日期,
  5         proj_end as 结束日期,
  6         lag(proj_end) over(partition by empno order by proj_start) as 上一工程结束日期,
  7         lag(proj_id) over(partition by empno order by proj_start) as 上一工程号
  8    from zyd;

     EMPNO ENAME         工程号 开始日期    结束日期    上一工程结束日期      上一工程号
---------- ------ ---------- ----------- ----------- ----------- ----------
      7782 CLARK           1 2023-6-16   2023-6-18               
      7782 CLARK           4 2023-6-19   2023-6-24   2023-6-18            1
      7782 CLARK           7 2023-6-22   2023-6-25   2023-6-24            4
      7782 CLARK          10 2023-6-25   2023-6-28   2023-6-25            7
      7782 CLARK          13 2023-6-28   2023-7-2    2023-6-28           10
      7839 KING            2 2023-6-17   2023-6-21               
      7839 KING            5 2023-6-20   2023-6-24   2023-6-21            2
      7839 KING            8 2023-6-23   2023-6-25   2023-6-24            5
      7839 KING           11 2023-6-26   2023-6-27   2023-6-25            8
      7839 KING           14 2023-6-29   2023-6-30   2023-6-27           11
      7934 MILLER          3 2023-6-18   2023-6-22               
      7934 MILLER          6 2023-6-21   2023-6-23   2023-6-22            3
      7934 MILLER          9 2023-6-24   2023-6-27   2023-6-23            6
      7934 MILLER         12 2023-6-27   2023-6-28   2023-6-27            9
      7934 MILLER         15 2023-6-30   2023-7-3    2023-6-28           12

15 rows selected



这里增加了partition by empno这样就可以对数据分组进行分析,不同的empno之间互不影响。

2、比较

SQL> with t as
  2   (select empno,
  3           ename,
  4           proj_id as 工程号,
  5           proj_start as 开始日期,
  6           proj_end as 结束日期,
  7           lag(proj_end) over(partition by empno order by proj_start) as 上一工程结束日期,
  8           lag(proj_id) over(partition by empno order by proj_start) as 上一工程号
  9      from zyd)
 10  select t.empno,
 11         t.ename,
 12         t.工程号,
 13         t.开始日期,
 14         t.结束日期,
 15         case
 16           when 上一工程结束日期 >= 开始日期 then
 17            '工程' || lpad(工程号, 2, '0') || '与工程' || lpad(上一工程号, 2, '0') || '重复'
 18         end as 描述
 19    from t;

     EMPNO ENAME         工程号 开始日期    结束日期    描述
---------- ------ ---------- ----------- ----------- --------------------------------------------------------------------------------
      7782 CLARK           1 2023-6-16   2023-6-18   
      7782 CLARK           4 2023-6-19   2023-6-24   
      7782 CLARK           7 2023-6-22   2023-6-25   工程07与工程04重复
      7782 CLARK          10 2023-6-25   2023-6-28   工程10与工程07重复
      7782 CLARK          13 2023-6-28   2023-7-2    工程13与工程10重复
      7839 KING            2 2023-6-17   2023-6-21   
      7839 KING            5 2023-6-20   2023-6-24   工程05与工程02重复
      7839 KING            8 2023-6-23   2023-6-25   工程08与工程05重复
      7839 KING           11 2023-6-26   2023-6-27   
      7839 KING           14 2023-6-29   2023-6-30   
      7934 MILLER          3 2023-6-18   2023-6-22   
      7934 MILLER          6 2023-6-21   2023-6-23   工程06与工程03重复
      7934 MILLER          9 2023-6-24   2023-6-27   
      7934 MILLER         12 2023-6-27   2023-6-28   工程12与工程09重复
      7934 MILLER         15 2023-6-30   2023-7-3    

15 rows selected

如果只想看重复数据,直接加个过滤就行啦！！！

二、按指定间隔汇总数据

现在有个需求：按指定的时间间隔(10分钟）汇总数据,分别汇总至0分、10分、20分、30分等。
我这里用v$sql表来当作案例数据，先看下这里的部分数据：

select a.LAST_ACTIVE_TIME from v$sql a where rownum<=5;
LAST_ACTIVE_TIME
----------------
2023-2-13 22:14:27
2023-2-15 3:00:59
2023-2-7 1:05:29
2023-2-8 1:05:30
2023-2-15 15:59:03

我们一步步来。

1、截取数据到分钟，并提取分钟信息

select sql_id,trunc(a.LAST_ACTIVE_TIME,'mi') as tim,to_char(a.LAST_ACTIVE_TIME,'mi') as mi  from v$sql a where sql_id='gcsnqzu9q0004'
SQL_ID	TIM	MI
gcsnqzu9q0004	2023-2-13 22:14:00	14

2、对14和10取余
SQL> select mod(14,10) from dual;

MOD(14,10)
----------
         4

SQL>

2、对比上面结果，我们可以知道如果想计算整10分钟的间隔，那就直接用MI-MOD(14,10)就算出来这个分钟对应在整十的哪个范围了。

select sql_id,
       trunc(a.LAST_ACTIVE_TIME, 'mi') as tim,
       to_char(a.LAST_ACTIVE_TIME, 'mi') as mi,
       to_char(a.LAST_ACTIVE_TIME, 'mi') -
       mod(to_char(a.LAST_ACTIVE_TIME, 'mi'), 10) as new_mi
  from v$sql a
 where sql_id = 'gcsnqzu9q0004';
SQL_ID	TIM	MI	NEW_MI
gcsnqzu9q0004	2023-2-13 22:14:00	14	10

那么铺垫做完了，这个需求的最终实现sql如下：

SQL> with t as
  2   (select sql_id,
  3           trunc(a.LAST_ACTIVE_TIME, 'mi') -
  4           mod(to_char(a.LAST_ACTIVE_TIME, 'mi'), 10) / 24 / 60 as new_tim
  5      from v$sql a)
  6      select * from (
  7  select new_tim, count(*) from t group by new_tim  order by new_tim desc nulls last
  8  )where rownum<=10;

NEW_TIM       COUNT(*)
----------- ----------
2023-2-15 19:00:00	476
2023-2-15 18:50:00	44
2023-2-15 18:40:00	20
2023-2-15 18:30:00	21
2023-2-15 18:20:00	52
2023-2-15 18:10:00	4
2023-2-15 18:00:00	7
2023-2-15 17:50:00	2
2023-2-15 17:40:00	7
2023-2-15 17:30:00	2


10 rows selected


SQL>

总结

本篇文章讲解的主要内容是：如何识别重叠的日期范围、日期出现次数、确定当前记录和下一条记录之间相差的天数

猜你喜欢

快速美化您的桌面(win 仿制 mac)
探索Linux查看文件内容的方法（linux查看文件的内容）
Oracle 视图 V$SESSION_WAIT_CLASS 官方解释，作用，如何使用详细说明
Google系统架构解密：构建安全可靠的系统
MySQL：快速导入表结构（mysql导入表结构）
适合所有网站的rss和xml聚合功能asp代码
MySQL Error number: MY-010984; Symbol: ER_RES_GRP_THD_UNBIND_FROM_CPU_FAILED; SQLSTATE: HY000 报错故障修复远程处理
Redis实现秒杀活动的顺利进行（秒杀活动用redis加锁）
MySQL Error number: MY-011156; Symbol: ER_SEMISYNC_RPL_SWITCHED_ON; SQLSTATE: HY000 报错故障修复远程处理
Linux中开放设备的探索（linuxopen设备）
【python】字典超详解
最小生成树，Prim算法实现详解编程语言
深入C++中构造函数、拷贝构造函数、赋值操作符、析构函数的调用过程总结
管理与监控轻松搞定——Oracle EM数据解析指南（oracleem数据）
Linux防火墙关闭指南（关闭linux的防火墙）
pycharm 编码怎么设置_pycharm编码格式
妙用MySQL批量Update加快数据库运行（mysql批量update）
计算机网络性能指标
Linux下短信猫，助力企业高效通讯（短信猫linuxat）
以Mirai僵尸网络为例，浅析IoT恶意软件dropper

相关主题

Python 语音识别
安全帽识别
人体姿态识别
手势识别
身份证识别
人脸检测与识别
日期与日期格式化
点文字识别
中文识别
1020.数字识别

zl程序教程