Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

timestamps doesn't work as expected #14

Open
gody7334 opened this issue Dec 23, 2024 · 2 comments
Open

timestamps doesn't work as expected #14

gody7334 opened this issue Dec 23, 2024 · 2 comments

Comments

@gody7334
Copy link

Comparing the openai/whisper-large-v3-turbo and BELLE-2/Belle-whisper-large-v3-turbo-zh
I found the Belle's version timestamp doesn't work as expected,
Can you share how you train the timestamp?

the following are the results from 2 models

original audio: https://youtu.be/Oy_mJadFOgQ?si=9VKBGDxtxcYfA7ji

=============== BELLE-2/Belle-whisper-large-v3-turbo-zh ================

{'chunks': [{'text': '今天台股疲软,但是机器人概念股相对抗跌,可能就是因为这件事情。台积电董事长魏哲嘉出席了全国科技技术会议,唱台AI发展。而他甚至说他前几天跟世界上最有钱的人聊天,暗示着就是特斯拉直营长马斯克。而这个对话当中呢,马斯克提到了他认为多功能的机器人是未来努力的方向,而非电动车。而魏志家也透露了。马斯克目前最担心的就是晶片短缺的问题。魏志家当长回答说,你不要紧张,只要你付钱,就一定会有晶片。逗得与会来宾。哈哈大嫂。我相信各位有点误会,以为说只要是台积电董事长,那么一定是学问又好,见识又广的人。有点误会,因为那个只有姓张的时候才对。一上台就展现魏氏幽默台积电董事长魏哲嘉受邀大谈AI发展。他还透露科技巨头最看好的多功能机器人,绝对少不了台积电的技术。我前几天跟全世界最有钱的家伙聊天,他跟我讲说多功能的机器人呢,是他要努力的方向,而不是汽车,听清楚多功能的机器人是他要努力的方向。而不是汽车。那我就问他说有什么你会担心的,他一定要讲一大堆其他的理论。他说他最担心的是没有人供给他晶片。我说你不要紧张,只要你肯付钱,你的晶片一定有。',
'timestamp': (0.0, 108.0)},
{'text': '为这家风趣谈透和特斯拉决心装马斯克的对话。', 'timestamp': (108.0, 112.0)},
{'text': '同时还认为台湾拥用软体和精密机械的优势也很适合投入无人机。而晶片就是关键。',
'timestamp': (112.0, 119.0)},
{'text': '其实我们都知道机器人跟人类最大的不同。啊,机器人是一个很精准的东西。.除了我们的棒球打得好以外,半导体产品也可以做得很好。魏哲嘉,刺自租基认为台场有很好的设计公司。晶片制造封装测试资料中心技术。而且不只是为了打造中断的产品。在制成当中,AI也能够帮上大忙。我用台积电当例子。就算是在台积电,我们也用了AI的技术,帮我们整个生产的效率提高。每年因此而增加好几百亿的利润。任何一个公司我相信都可以用AI,我们的国家也可以用AI来发展。为着加坦言,最近这两个月客户对于未来的期待很大,句句不脱离AI。看来人工智慧的趋势,全球科技大厂都在努力追逐。记者曹赛林、陈伯承科斯丹林思雨台北报道。',
'timestamp': (119.0, 192.66)}],
'text': '今天台股疲软,但是机器人概念股相对抗跌,可能就是因为这件事情。台积电董事长魏哲嘉出席了全国科技技术会议,唱台AI发展。而他甚至说他前几天跟世界上最有钱的人聊天,暗示着就是特斯拉直营长马斯克。而这个对话当中呢,马斯克提到了他认为多功能的机器人是未来努力的方向,而非电动车。而魏志家也透露了。马斯克目前最担心的就是晶片短缺的问题。魏志家当长回答说,你不要紧张,只要你付钱,就一定会有晶片。逗得与会来宾。哈哈大嫂。我相信各位有点误会,以为说只要是台积电董事长,那么一定是学问又好,见识又广的人。有点误会,因为那个只有姓张的时候才对。一上台就展现魏氏幽默台积电董事长魏哲嘉受邀大谈AI发展。他还透露科技巨头最看好的多功能机器人,绝对少不了台积电的技术。我前几天跟全世界最有钱的家伙聊天,他跟我讲说多功能的机器人呢,是他要努力的方向,而不是汽车,听清楚多功能的机器人是他要努力的方向。而不是汽车。那我就问他说有什么你会担心的,他一定要讲一大堆其他的理论。他说他最担心的是没有人供给他晶片。我说你不要紧张,只要你肯付钱,你的晶片一定有。为这家风趣谈透和特斯拉决心装马斯克的对话。同时还认为台湾拥用软体和精密机械的优势也很适合投入无人机。而晶片就是关键。其实我们都知道机器人跟人类最大的不同。啊,机器人是一个很精准的东西。.除了我们的棒球打得好以外,半导体产品也可以做得很好。魏哲嘉,刺自租基认为台场有很好的设计公司。晶片制造封装测试资料中心技术。而且不只是为了打造中断的产品。在制成当中,AI也能够帮上大忙。我用台积电当例子。就算是在台积电,我们也用了AI的技术,帮我们整个生产的效率提高。每年因此而增加好几百亿的利润。任何一个公司我相信都可以用AI,我们的国家也可以用AI来发展。为着加坦言,最近这两个月客户对于未来的期待很大,句句不脱离AI。看来人工智慧的趋势,全球科技大厂都在努力追逐。记者曹赛林、陈伯承科斯丹林思雨台北报道。'}

================== openai/whisper-large-v3-turbo =====================

{'chunks': [{'text': '今天台股疲软,但是机器人概念股相对抗跌,可能就是因为这件事情。',
'timestamp': (0.16, 4.86)},
{'text': '台积电董事长魏哲嘉出席了全国科技技术会议唱台AI发展,', 'timestamp': (5.28, 10.7)},
{'text': '而他甚至说他前几天跟世界上最有钱的人聊天,', 'timestamp': (11.02, 15.78)},
{'text': '暗示着就是特斯拉直音长马斯克。', 'timestamp': (16.1, 18.72)},
{'text': '而这个对话当中马斯克提到了,', 'timestamp': (19.1, 21.26)},
{'text': '他认为多功能的机器人是未來努力的方向而非電動車', 'timestamp': (21.56, 26.9)},
{'text': '而魏哲家也透露了', 'timestamp': (26.9, 28.48)},
{'text': '馬斯克目前最擔心的', 'timestamp': (28.48, 29.82)},
{'text': '就是晶片短缺的問題', 'timestamp': (29.82, 31.8)},
{'text': '魏哲家當場回答說', 'timestamp': (31.8, 33.28)},
{'text': '你不要緊張', 'timestamp': (33.28, 34.08)},
{'text': '只要你付錢', 'timestamp': (34.08, 34.9)},
{'text': '就一定會有晶片', 'timestamp': (34.9, 36.52)},
{'text': '逗得與會來賓', 'timestamp': (36.52, 37.58)},
{'text': '哈哈大嫂', 'timestamp': (37.58, 38.38)},
{'text': '我相信各位有點誤會', 'timestamp': (38.38, 41.52)},
{'text': '以為說', 'timestamp': (41.52, 42.86)},
{'text': '只要是台穯电董事长', 'timestamp': (42.86, 45.74)},
{'text': '那么一定是学问又好', 'timestamp': (45.74, 48.04)},
{'text': '见识又广的人', 'timestamp': (48.04, 49.78)},
{'text': '有点误会', 'timestamp': (49.78, 51.9)},
{'text': '因为那个只有姓张的时候才对', 'timestamp': (51.9, 54.94)},
{'text': '一上台就展现卫世幽默', 'timestamp': (54.94, 58.76)},
{'text': '台积电董事长魏哲嘉', 'timestamp': (58.76, 60.4)},
{'text': '受邀大谈AI发展', 'timestamp': (60.4, 61.92)},
{'text': '他还透露科技巨头最看好的多功能机器人', 'timestamp': (61.92, 65.24)},
{'text': '绝对少不了台积电的技术而不是汽車聽清楚多工人的機器人', 'timestamp': (65.24, 85.0)},
{'text': '是他要努力的方向', 'timestamp': (85.0, 86.8)},
{'text': '而不是汽車', 'timestamp': (86.8, 88.4)},
{'text': '那我就問他說', 'timestamp': (88.4, 90.8)},
{'text': '有什麼你會擔心的', 'timestamp': (90.8, 93.2)},
{'text': '他一定要講一大堆其他的理論', 'timestamp': (93.2, 96.9)},
{'text': '他說他最擔心的是', 'timestamp': (96.9, 98.5)},
{'text': '沒有人供給他晶片', 'timestamp': (98.5, 101.2)},
{'text': '我說你不要緊張只要你肯付钱', 'timestamp': (103.3, 106.3)},
{'text': '你的晶片一定有', 'timestamp': (106.3, 108.0)},
{'text': '为这家风趣谈透', 'timestamp': (108.0, 109.46)},
{'text': '和特斯拉决心章马斯克的对话', 'timestamp': (109.46, 111.64)},
{'text': '同时还认为', 'timestamp': (111.64, 112.78)},
{'text': '台湾拥有软体和精密机械的优势', 'timestamp': (112.78, 115.52)},
{'text': '也很适合投入无人机', 'timestamp': (115.52, 117.2)},
{'text': '而晶片就是关键', 'timestamp': (117.2, 118.94)},
{'text': '其实我们都知道', 'timestamp': (118.94, 120.08)},
{'text': '机器人跟人类最大的不同', 'timestamp': (120.08, 121.88)},
{'text': '机器人是一个很精准的东西', 'timestamp': (121.88, 124.92)},
{'text': '人类是一个很精準的東西', 'timestamp': (124.92, 125.3)},
{'text': '人類是一個很具有彈性而不精準的', 'timestamp': (125.3, 129.66)},
{'text': '是不是', 'timestamp': (129.66, 130.62)},
{'text': '所以這中間的訣竅在晶片的設計跟', 'timestamp': (130.62, 134.76)},
{'text': 'Software跟軟體的設計', 'timestamp': (134.76, 138.44)},
{'text': '要證明一下說', 'timestamp': (138.44, 139.84)},
{'text': '除了我們的棒球打得好以外', 'timestamp': (139.84, 143.24)},
{'text': '半導體產品也可以做得很好', 'timestamp': (143.24, 145.32)},
{'text': '魏哲嘉赐字珠基', 'timestamp': (145.32, 146.72)},
{'text': '认为台厂有很好的设计公司', 'timestamp': (146.72, 148.88)},
{'text': '晶片制造封装测试资料中心技术', 'timestamp': (148.88, 151.7)},
{'text': '而且不只是为了打造中断的产品', 'timestamp': (151.7, 154.22)},
{'text': '在制程当中AI也能够帮上大忙', 'timestamp': (154.22, 157.1)},
{'text': '我用台积电当例子', 'timestamp': (157.1, 160.12)},
{'text': '就算是在台积电', 'timestamp': (160.12, 162.14)},
{'text': '我们也用了AI的技术', 'timestamp': (162.14, 164.18)},
{'text': '帮我们整个生产的效率提高', 'timestamp': (164.18, 168.16)},
{'text': '每年因此增加好几百亿的利润', 'timestamp': (168.16, 172.12)},
{'text': '任何一个公司', 'timestamp': (172.12, 173.7)},
{'text': '我相信都可以用AI', 'timestamp': (173.7, 175.6)},
{'text': '我们的国家', 'timestamp': (175.6, 177.06)},
{'text': '也可以用AI来发展', 'timestamp': (177.06, 179.1)},
{'text': '为着加坦言', 'timestamp': (179.1, 180.1)},
{'text': '最近这两个月', 'timestamp': (180.1, 181.08)},
{'text': '客户对于未来的期待很大', 'timestamp': (181.08, 182.9)},
{'text': '句句不脱离AI', 'timestamp': (182.9, 184.2)},
{'text': '看来人工智慧的趋势', 'timestamp': (184.2, 186.04)},
{'text': '全球科技大厂都在努力追逐', 'timestamp': (186.04, 188.72)},
{'text': '记者曹赛林', 'timestamp': (188.72, 190.08)},
{'text': '陈伯承', 'timestamp': (190.08, 190.64)},
{'text': '科斯安林思雨', 'timestamp': (190.64, 191.58)},
{'text': '台北报道', 'timestamp': (191.58, 192.38)}],
'text': '今天台股疲软,但是机器人概念股相对抗跌,可能就是因为这件事情。台积电董事长魏哲嘉出席了全国科技技术会议唱台AI发展,而他甚至说他前几天跟世界上最有钱的人聊天,暗示着就是特斯拉直音长马斯克。而这个对话当中马斯克提到了,他认为多功能的机器人是未來努力的方向而非電動車而魏哲家也透露了馬斯克目前最擔心的就是晶片短缺的問題魏哲家當場回答說你不要緊張只要你付錢就一定會有晶片逗得與會來賓哈哈大嫂我相信各位有點誤會以為說只要是台穯电董事长那么一定是学问又好见识又广的人有点误会因为那个只有姓张的时候才对一上台就展现卫世幽默台积电董事长魏哲嘉受邀大谈AI发展他还透露科技巨头最看好的多功能机器人绝对少不了台积电的技术而不是汽車聽清楚多工人的機器人是他要努力的方向而不是汽車那我就問他說有什麼你會擔心的他一定要講一大堆其他的理論他說他最擔心的是沒有人供給他晶片我說你不要緊張只要你肯付钱你的晶片一定有为这家风趣谈透和特斯拉决心章马斯克的对话同时还认为台湾拥有软体和精密机械的优势也很适合投入无人机而晶片就是关键其实我们都知道机器人跟人类最大的不同机器人是一个很精准的东西人类是一个很精準的東西人類是一個很具有彈性而不精準的是不是所以這中間的訣竅在晶片的設計跟Software跟軟體的設計要證明一下說除了我們的棒球打得好以外半導體產品也可以做得很好魏哲嘉赐字珠基认为台厂有很好的设计公司晶片制造封装测试资料中心技术而且不只是为了打造中断的产品在制程当中AI也能够帮上大忙我用台积电当例子就算是在台积电我们也用了AI的技术帮我们整个生产的效率提高每年因此增加好几百亿的利润任何一个公司我相信都可以用AI我们的国家也可以用AI来发展为着加坦言最近这两个月客户对于未来的期待很大句句不脱离AI看来人工智慧的趋势全球科技大厂都在努力追逐记者曹赛林陈伯承科斯安林思雨台北报道'}

@gody7334
Copy link
Author

gody7334 commented Dec 24, 2024

Found the issue related to timestamp,
The turbo's added tokens
https://huggingface.co/openai/whisper-large-v3-turbo/blob/main/added_tokens.json

is different from older version's tokens
https://huggingface.co/openai/whisper-tiny/blob/main/added_tokens.json

suggest to use following code in utils/reader.py to construct the tokens:
start = "<|" + "{:.2f}".format(round(start*100) / 100) + "|>"
start = self.processor.tokenizer.added_tokens_encoder[start]

And retraining the V3, turbo model

@shuaijiang
Copy link
Owner

it works well now ?

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants