Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[Plan] KM - 鄉民玩 AI: EP2 心情點唱機 #193

Closed
arealclimber opened this issue Jul 1, 2024 · 5 comments
Closed

[Plan] KM - 鄉民玩 AI: EP2 心情點唱機 #193

arealclimber opened this issue Jul 1, 2024 · 5 comments
Assignees
Labels
3 hard level 3 documentation Improvements or additions to documentation

Comments

@arealclimber
Copy link
Member

arealclimber commented Jul 1, 2024

此票要做的是評估心情點唱機所需的實驗跟對應時間,評估方式參考

https://github.com/CAFECA-IO/KnowledgeManagement/issues/169

要做的 AI 專案是「心情點唱機」,其目的是利用多個 AI 模型和工具,將收集到的對話音頻轉換為具有特定情緒的歌曲。具體流程包括:

  1. WhisperX:收集並轉錄空間中的對話音頻。
  2. 情緒分析:解析轉錄文本中的情緒。
  3. llama 模型:根據情緒分析結果生成對應情緒的歌詞。
  4. AudioCraft:根據生成的歌詞創作樂曲。
  5. ChatTTS:將生成的歌詞和樂曲轉換為唱歌音頻。

這個專案的實現過程將展示如何利用現有的 AI 工具和技術來創建一個能夠自動生成音樂的系統,並應用於提升課堂教學品質。例如,AI 可以根據學生的情緒生成適合的歌曲,增加課堂的趣味性和互動性。

7 月 KM:鄉民玩 AI: EP2 心情點唱機
WhisperX 收集空間中的對話,並解析情緒
llama 根據分析結果生成歌詞
AudioCraft 生成樂曲
ChatTTS 演唱
「前排的同學很專注,後面的同學別偷吃小泡芙 ~♪」
「老師你到底會不會教,AI 都聽不懂你在供三小 ~♪」
可用來提升課堂教學品質

@arealclimber arealclimber self-assigned this Jul 1, 2024
@arealclimber arealclimber added documentation Improvements or additions to documentation 3 hard level 3 labels Jul 1, 2024
@arealclimber
Copy link
Member Author

任務 1:WhisperX 語音識別和轉錄

難度:中等

子任務 1.1:安裝 WhisperX(3小時)

  • 任務描述:在本地環境或雲端服務器上安裝 WhisperX。
  • 判斷標準:成功運行 WhisperX 的基本示例,並生成一段簡短的轉錄文本。

細項

  1. 研究 WhisperX 安裝步驟(1小時)
    • 瀏覽 WhisperX 的官方文檔和 GitHub 頁面,詳細閱讀安裝指南,瞭解系統要求和依賴包。記錄所有需要的步驟和工具。
  2. 下載和安裝 WhisperX(1小時)
    • 根據安裝指南下載需要的軟件包和依賴項,並按照步驟在本地環境或雲端服務器上進行安裝。確保安裝過程中沒有錯誤。
  3. 運行示例並驗證安裝(1小時)
    • 使用 WhisperX 提供的示例數據運行基本示例,檢查輸出結果是否符合預期。成功生成轉錄文本並確保無錯誤。

子任務 1.2:收集對話數據(5小時)

  • 任務描述:收集多樣化的對話音頻,確保包括不同情緒的表達。
  • 判斷標準:至少收集10段不同情緒的音頻資料。

細項

  1. 搜索和下載公開的對話音頻數據集(2小時)
    • 在互聯網上查找公開可用的對話音頻數據集,下載並記錄來源。確保數據集包含多種情緒表達的對話。
  2. 確認音頻質量和情緒多樣性(1小時)
    • 檢查下載的音頻數據質量,確保音頻清晰且無明顯噪音。分類音頻,標記其情緒特徵,確保情緒多樣性。
  3. 整理和標記音頻數據(2小時)
    • 將音頻數據按照情緒分類並存儲在適當的目錄結構中。為每段音頻添加標籤,記錄其情緒特徵和相關信息。

子任務 1.3:轉錄音頻(5小時)

  • 任務描述:使用 WhisperX 將音頻轉換為文本。
  • 判斷標準:轉錄準確率達到85%以上。

細項

  1. 選取部分音頻進行轉錄測試(2小時)
    • 選擇具有代表性的音頻片段,使用 WhisperX 進行轉錄測試。記錄每次轉錄的結果和過程。
  2. 驗證轉錄結果並調整參數以提高準確率(3小時)
    • 比較轉錄文本與原始音頻內容,計算轉錄準確率。根據結果調整 WhisperX 的參數,重複測試以提高準確率至85%以上。

任務 2:情緒分析

難度:中等

子任務 2.1:選擇情緒分析工具(2小時)

  • 任務描述:調查並選擇合適的情緒分析工具(如 VADER 或 TextBlob)。
  • 判斷標準:確定使用的工具,並能在本地環境中運行。

細項

  1. 研究可用的情緒分析工具(1小時)
    • 瀏覽網絡資源,查找和比較常用的情緒分析工具。閱讀工具的特性、優缺點和使用案例,選出最適合的工具。
  2. 選擇並安裝合適的工具(1小時)
    • 根據研究結果選擇情緒分析工具,下載並在本地環境中安裝。運行示例程序以驗證安裝成功。

子任務 2.2:文本情緒標註(8小時)

  • 任務描述:對轉錄文本進行情緒分析和標註。
  • 判斷標準:完成10段文本的情緒標註,準確率達到80%以上。

細項

  1. 將轉錄文本導入情緒分析工具(1小時)
    • 準備轉錄的文本數據,將其導入情緒分析工具的環境中。確保數據格式正確且可讀取。
  2. 使用工具進行情緒分析並記錄結果(4小時)
    • 使用選擇的情緒分析工具對轉錄文本進行情緒標註。詳細記錄每段文本的分析結果和情緒標籤。
  3. 驗證和調整分析結果(3小時)
    • 人工驗證情緒分析結果,確保標註準確率達到80%以上。對於錯誤標註進行修正,必要時調整分析工具的參數。

任務 3:llama 模型生成歌詞

難度:較高

子任務 3.1:瞭解和設置 llama 模型(8小時)

  • 任務描述:學習 llama 模型的基本概念和使用方法,並在本地或雲端設置環境。
  • 判斷標準:成功運行 llama 模型並生成簡單的文本。

細項

  1. 研究 llama 模型的文檔和範例(3小時)
    • 閱讀 llama 模型的官方文檔和使用範例,理解其工作原理和應用方法。記錄重要配置和使用步驟。
  2. 設置模型運行環境(3小時)
    • 根據文檔要求配置運行環境,安裝必要的軟件和依賴項。在本地或雲端部署 llama 模型。
  3. 運行基本示例並生成文本(2小時)
    • 運行 llama 模型的基本示例程序,生成簡單的文本。驗證模型的輸出是否符合預期,確保無錯誤。

子任務 3.2:情緒歌詞生成(8小時)

  • 任務描述:根據情緒標註結果使用 llama 模型生成歌詞。
  • 判斷標準:生成的歌詞能夠反映對應的情緒,通過人為判斷達到70%的情緒一致性。

細項

  1. 根據情緒標註結果準備訓練數據(2小時)
    • 根據情緒分析結果,準備包含情緒標註的文本數據。將這些數據轉換為適合訓練 llama 模型的格式。
  2. 訓練或微調 llama 模型(4小時)
    • 使用準備好的數據對 llama 模型進行訓練或微調。記錄訓練過程和參數設置,確保訓練順利完成。
  3. 生成歌詞並進行情緒一致性驗證(2小時)
    • 使用訓練好的模型生成歌詞,並對生成的歌詞進行情緒一致性驗證。人工檢查歌詞與標註情緒的一致性,確保達到70%以上。

任務 4:AudioCraft 生成樂曲

難度:高

子任務 4.1:安裝和設置 AudioCraft(5小時)

  • 任務描述:在本地或雲端環境中安裝並設置 AudioCraft。
  • 判斷標準:成功運行 AudioCraft,生成簡單的音樂片段。

細項

  1. 研究 AudioCraft 安裝步驟和文檔(2小時)
    • 閱讀 AudioCraft 的官方文檔和安裝指南,瞭解系統要求和依賴項。記錄安裝過程中的注意事項和步驟。
  2. 下載並安裝 AudioCraft(2小時)
    • 根據安裝指南下載所需的軟件包和依賴項,並在本地或雲端環境中進行安裝。確保安裝過程順利無錯誤。
  3. 運行基本示例並生成音樂片段(1小時)
    • 運行 AudioCraft 提供的基本示例程序,生成簡單的音樂片段。檢查輸出結果是否符合預期,確保無錯誤。

子任務 4.2:生成情緒音樂(8小時)

  • 任務描述:根據生成的歌詞使用 AudioCraft 創作樂曲。
  • 判斷標準:生成的音樂與歌詞情緒匹配度達到75%以上。

細項

  1. 準備歌詞數據並輸入 AudioCraft(2小時)
    • 將生成的歌詞數據轉換為適合 AudioCraft 使用的格式,並導入 AudioCraft 的工作環境中。確保數據格式正確且可讀取。
  2. 生成初步音樂並進行調整(3小時)
    • 使用 AudioCraft 根據歌詞生成初步音樂,檢查輸出結果。根據需要調整參數和設置,以提高音樂質量和情緒匹配度。
  3. 驗證音樂質量和情緒匹配度(3小時)
    • 人工驗證生成的音樂質量,確保音樂與歌詞的情緒一致性達到75%以上。根據驗證結果進行進一步的調整和優化。

任務 5:ChatTTS 演唱

難度:中等

子任務 5.1:安裝和設置 ChatTTS(3小時)

  • 任務描述:在本地或雲端環境中安裝並設置 ChatTTS。
  • 判斷標準:成功運行 ChatTTS,生成簡單的語音片段。

細項

  1. 研究 ChatTTS 安裝步驟和文檔(1小時)
    • 閱讀 ChatTTS 的官方文檔和安裝指南,瞭解系統要求和依賴項。記錄安裝過程中的注意事項和步驟。
  2. 下載並安裝 ChatTTS(1小時)
    • 根據安裝指南下載所需的軟件包和依賴項,並在本地或雲端環境中進行安裝。確保安裝過程順利無錯誤。
  3. 運行基本示例並生成語音片段(1小時)
    • 運行 ChatTTS 提供的基本示例程序,生成簡單的語音片段。檢查輸出結果是否符合預期,確保無錯誤。

子任務 5.2:生成唱歌音頻(5小時)

  • 任務描述:使用 ChatTTS 將生成的歌詞轉換為唱歌音頻。
  • 判斷標準:生成的音頻自然流暢,語音與歌詞情緒一致性達到70%以上。

細項

  1. 將生成的歌詞輸入 ChatTTS(1小時)
    • 準備生成的歌詞數據,將其導入 ChatTTS 的工作環境中。確保數據格式正確且可讀取。
  2. 生成初步唱歌音頻(2小時)
    • 使用 ChatTTS 根據歌詞生成初步唱歌音頻,檢查輸出結果。根據需要調整參數和設置,以提高音頻質量。
  3. 調整音頻參數以提高質量(2小時)
    • 根據初步結果調整 ChatTTS 的參數和設置,以提高音頻質量和自然度。重複生成和驗證過程,確保最終結果符合要求。

任務 6:整合和測試

難度:高

子任務 6.1:整合各模塊(8小時)

  • 任務描述:將 WhisperX、情緒分析、llama 模型、AudioCraft 和 ChatTTS 整合成一個完整的流程。
  • 判斷標準:能夠從音頻輸入到最終生成唱歌音頻的全過程順利運行。

細項

  1. 設計整合流程和數據流(2小時)
    • 設計整個系統的數據流和工作流程,確保各模塊之間的數據傳輸和處理順暢。繪製流程圖並詳細描述各步驟。
  2. 開發整合代碼(4小時)
    • 編寫代碼將各模塊整合到一起,確保數據能夠順利從一個模塊傳遞到下一個模塊。進行初步測試並修復潛在問題。
  3. 初步測試整合流程(2小時)
    • 使用完整的流程進行初步測試,從音頻輸入到最終生成唱歌音頻。檢查每個步驟的輸出結果,確保無錯誤並記錄測試結果。

子任務 6.2:測試和驗證(8小時)

  • 任務描述:對整個系統進行測試,確保各部分連貫且有效。
  • 判斷標準:系統運行穩定,最終作品質量達到預期標準,情緒一致性和音質良好。

細項

  1. 準備測試數據和用例(2小時)
    • 準備多組測試數據和測試用例,包括不同情緒的音頻。確保測試數據能夠覆蓋各種情況和邊界條件。
  2. 進行系統測試並記錄結果(4小時)
    • 使用準備好的測試數據對整個系統進行全面測試,記錄每次測試的結果和發現的問題。分析測試數據以確保系統運行穩定。
  3. 分析測試結果並進行優化(2小時)
    • 根據測試結果分析系統性能和存在的問題,進行相應的優化和改進。重複測試直至系統達到預期的穩定性和質量標準。

通過這些詳細拆解和時間安排,每個任務都有明確的執行步驟和判斷標準,有助於工程師逐步完成整個專案。

總共預計 78 小時

@arealclimber
Copy link
Member Author

任務 1:WhisperX 語音識別和轉錄

難度:中等

子任務 1.1:安裝 WhisperX(3小時)

  • 任務描述:在本地環境或雲端服務器上安裝 WhisperX。
  • 判斷標準:成功運行 WhisperX 的基本示例,並生成一段簡短的轉錄文本。

細項

  1. 研究 WhisperX 安裝步驟(1小時)
    • 瀏覽 WhisperX 的官方文檔和 GitHub 頁面,詳細閱讀安裝指南,瞭解系統要求和依賴包。記錄所有需要的步驟和工具。
  2. 下載和安裝 WhisperX(1小時)
    • 根據安裝指南下載需要的軟件包和依賴項,並按照步驟在本地環境或雲端服務器上進行安裝。確保安裝過程中沒有錯誤。
  3. 運行示例並驗證安裝(1小時)
    • 使用 WhisperX 提供的示例數據運行基本示例,檢查輸出結果是否符合預期。成功生成轉錄文本並確保無錯誤。

子任務 1.2:收集對話數據(5小時)

  • 任務描述:收集多樣化的對話音頻,確保包括不同情緒的表達。
  • 判斷標準:至少收集10段不同情緒的音頻資料。

細項

  1. 搜索和下載公開的對話音頻數據集(2小時)
    • 在互聯網上查找公開可用的對話音頻數據集,下載並記錄來源。確保數據集包含多種情緒表達的對話。
  2. 確認音頻質量和情緒多樣性(1小時)
    • 檢查下載的音頻數據質量,確保音頻清晰且無明顯噪音。分類音頻,標記其情緒特徵,確保情緒多樣性。
  3. 整理和標記音頻數據(2小時)
    • 將音頻數據按照情緒分類並存儲在適當的目錄結構中。為每段音頻添加標籤,記錄其情緒特徵和相關信息。

子任務 1.3:轉錄音頻(5小時)

  • 任務描述:使用 WhisperX 將音頻轉換為文本。
  • 判斷標準:轉錄準確率達到85%以上。

細項

  1. 選取部分音頻進行轉錄測試(2小時)
    • 選擇具有代表性的音頻片段,使用 WhisperX 進行轉錄測試。記錄每次轉錄的結果和過程。
  2. 驗證轉錄結果並調整參數以提高準確率(3小時)
    • 比較轉錄文本與原始音頻內容,計算轉錄準確率。根據結果調整 WhisperX 的參數,重複測試以提高準確率至85%以上。

任務 2:情緒分析

難度:中等

子任務 2.1:選擇情緒分析工具(2小時)

  • 任務描述:調查並選擇合適的情緒分析工具(如 VADER 或 TextBlob)。
  • 判斷標準:確定使用的工具,並能在本地環境中運行。

細項

  1. 研究可用的情緒分析工具(1小時)
    • 瀏覽網絡資源,查找和比較常用的情緒分析工具。閱讀工具的特性、優缺點和使用案例,選出最適合的工具。
  2. 選擇並安裝合適的工具(1小時)
    • 根據研究結果選擇情緒分析工具,下載並在本地環境中安裝。運行示例程序以驗證安裝成功。

子任務 2.2:文本情緒標註(8小時)

  • 任務描述:對轉錄文本進行情緒分析和標註。
  • 判斷標準:完成10段文本的情緒標註,準確率達到80%以上。

細項

  1. 將轉錄文本導入情緒分析工具(1小時)
    • 準備轉錄的文本數據,將其導入情緒分析工具的環境中。確保數據格式正確且可讀取。
  2. 使用工具進行情緒分析並記錄結果(4小時)
    • 使用選擇的情緒分析工具對轉錄文本進行情緒標註。詳細記錄每段文本的分析結果和情緒標籤。
  3. 驗證和調整分析結果(3小時)
    • 人工驗證情緒分析結果,確保標註準確率達到80%以上。對於錯誤標註進行修正,必要時調整分析工具的參數。

任務 3:llama 模型生成歌詞

難度:較高

子任務 3.1:瞭解和設置 llama 模型(8小時)

  • 任務描述:學習 llama 模型的基本概念和使用方法,並在本地或雲端設置環境。
  • 判斷標準:成功運行 llama 模型並生成簡單的文本。

細項

  1. 研究 llama 模型的文檔和範例(3小時)
    • 閱讀 llama 模型的官方文檔和使用範例,理解其工作原理和應用方法。記錄重要配置和使用步驟。
  2. 設置模型運行環境(3小時)
    • 根據文檔要求配置運行環境,安裝必要的軟件和依賴項。在本地或雲端部署 llama 模型。
  3. 運行基本示例並生成文本(2小時)
    • 運行 llama 模型的基本示例程序,生成簡單的文本。驗證模型的輸出是否符合預期,確保無錯誤。

子任務 3.2:情緒歌詞生成(8小時)

  • 任務描述:根據情緒標註結果使用 llama 模型生成歌詞。
  • 判斷標準:生成的歌詞能夠反映對應的情緒,通過人為判斷達到70%的情緒一致性。

細項

  1. 根據情緒標註結果準備訓練數據(2小時)
    • 根據情緒分析結果,準備包含情緒標註的文本數據。將這些數據轉換為適合訓練 llama 模型的格式。
  2. 訓練或微調 llama 模型(4小時)
    • 使用準備好的數據對 llama 模型進行訓練或微調。記錄訓練過程和參數設置,確保訓練順利完成。
  3. 生成歌詞並進行情緒一致性驗證(2小時)
    • 使用訓練好的模型生成歌詞,並對生成的歌詞進行情緒一致性驗證。人工檢查歌詞與標註情緒的一致性,確保達到70%以上。

任務 4:AudioCraft 生成樂曲

難度:高

子任務 4.1:安裝和設置 AudioCraft(5小時)

  • 任務描述:在本地或雲端環境中安裝並設置 AudioCraft。
  • 判斷標準:成功運行 AudioCraft,生成簡單的音樂片段。

細項

  1. 研究 AudioCraft 安裝步驟和文檔(2小時)
    • 閱讀 AudioCraft 的官方文檔和安裝指南,瞭解系統要求和依賴項。記錄安裝過程中的注意事項和步驟。
  2. 下載並安裝 AudioCraft(2小時)
    • 根據安裝指南下載所需的軟件包和依賴項,並在本地或雲端環境中進行安裝。確保安裝過程順利無錯誤。
  3. 運行基本示例並生成音樂片段(1小時)
    • 運行 AudioCraft 提供的基本示例程序,生成簡單的音樂片段。檢查輸出結果是否符合預期,確保無錯誤。

子任務 4.2:生成情緒音樂(8小時)

  • 任務描述:根據生成的歌詞使用 AudioCraft 創作樂曲。
  • 判斷標準:生成的音樂與歌詞情緒匹配度達到75%以上。

細項

  1. 準備歌詞數據並輸入 AudioCraft(2小時)
    • 將生成的歌詞數據轉換為適合 AudioCraft 使用的格式,並導入 AudioCraft 的工作環境中。確保數據格式正確且可讀取。
  2. 生成初步音樂並進行調整(3小時)
    • 使用 AudioCraft 根據歌詞生成初步音樂,檢查輸出結果。根據需要調整參數和設置,以提高音樂質量和情緒匹配度。
  3. 驗證音樂質量和情緒匹配度(3小時)
    • 人工驗證生成的音樂質量,確保音樂與歌詞的情緒一致性達到75%以上。根據驗證結果進行進一步的調整和優化。

任務 5:ChatTTS 演唱

難度:中等

子任務 5.1:安裝和設置 ChatTTS(3小時)

  • 任務描述:在本地或雲端環境中安裝並設置 ChatTTS。
  • 判斷標準:成功運行 ChatTTS,生成簡單的語音片段。

細項

  1. 研究 ChatTTS 安裝步驟和文檔(1小時)
    • 閱讀 ChatTTS 的官方文檔和安裝指南,瞭解系統要求和依賴項。記錄安裝過程中的注意事項和步驟。
  2. 下載並安裝 ChatTTS(1小時)
    • 根據安裝指南下載所需的軟件包和依賴項,並在本地或雲端環境中進行安裝。確保安裝過程順利無錯誤。
  3. 運行基本示例並生成語音片段(1小時)
    • 運行 ChatTTS 提供的基本示例程序,生成簡單的語音片段。檢查輸出結果是否符合預期,確保無錯誤。

子任務 5.2:生成唱歌音頻(5小時)

  • 任務描述:使用 ChatTTS 將生成的歌詞轉換為唱歌音頻。
  • 判斷標準:生成的音頻自然流暢,語音與歌詞情緒一致性達到70%以上。

細項

  1. 將生成的歌詞輸入 ChatTTS(1小時)
    • 準備生成的歌詞數據,將其導入 ChatTTS 的工作環境中。確保數據格式正確且可讀取。
  2. 生成初步唱歌音頻(2小時)
    • 使用 ChatTTS 根據歌詞生成初步唱歌音頻,檢查輸出結果。根據需要調整參數和設置,以提高音頻質量。
  3. 調整音頻參數以提高質量(2小時)
    • 根據初步結果調整 ChatTTS 的參數和設置,以提高音頻質量和自然度。重複生成和驗證過程,確保最終結果符合要求。

任務 6:整合和測試

難度:高

子任務 6.1:整合各模塊(8小時)

  • 任務描述:將 WhisperX、情緒分析、llama 模型、AudioCraft 和 ChatTTS 整合成一個完整的流程。
  • 判斷標準:能夠從音頻輸入到最終生成唱歌音頻的全過程順利運行。

細項

  1. 設計整合流程和數據流(2小時)
    • 設計整個系統的數據流和工作流程,確保各模塊之間的數據傳輸和處理順暢。繪製流程圖並詳細描述各步驟。
  2. 開發整合代碼(4小時)
    • 編寫代碼將各模塊整合到一起,確保數據能夠順利從一個模塊傳遞到下一個模塊。進行初步測試並修復潛在問題。
  3. 初步測試整合流程(2小時)
    • 使用完整的流程進行初步測試,從音頻輸入到最終生成唱歌音頻。檢查每個步驟的輸出結果,確保無錯誤並記錄測試結果。

子任務 6.2:測試和驗證(8小時)

  • 任務描述:對整個系統進行測試,確保各部分連貫且有效。
  • 判斷標準:系統運行穩定,最終作品質量達到預期標準,情緒一致性和音質良好。

細項

  1. 準備測試數據和用例(2小時)
    • 準備多組測試數據和測試用例,包括不同情緒的音頻。確保測試數據能夠覆蓋各種情況和邊界條件。
  2. 進行系統測試並記錄結果(4小時)
    • 使用準備好的測試數據對整個系統進行全面測試,記錄每次測試的結果和發現的問題。分析測試數據以確保系統運行穩定。
  3. 分析測試結果並進行優化(2小時)
    • 根據測試結果分析系統性能和存在的問題,進行相應的優化和改進。重複測試直至系統達到預期的穩定性和質量標準。

任務 任務描述 判斷標準 執行難度 預計執行時數 實際執行時數
子任務 1.1 在本地環境或雲端服務器上安裝 WhisperX 成功運行 WhisperX 的基本示例,並生成一段簡短的轉錄文本 中等 3 小時  
細項 1.1.1 研究 WhisperX 安裝步驟 瞭解系統要求和依賴包,記錄需要的步驟和工具 1 小時  
細項 1.1.2 下載和安裝 WhisperX 根據安裝指南完成安裝,無錯誤 1 小時  
細項 1.1.3 運行示例並驗證安裝 運行示例,生成轉錄文本並確保無錯誤 1 小時  
子任務 1.2 收集多樣化的對話音頻,確保包括不同情緒的表達 至少收集10段不同情緒的音頻資料 中等 5 小時  
細項 1.2.1 搜索和下載公開的對話音頻數據集 下載並記錄來源,確保多種情緒表達的對話 2 小時  
細項 1.2.2 確認音頻質量和情緒多樣性 檢查音頻質量,分類音頻,標記情緒特徵 1 小時  
細項 1.2.3 整理和標記音頻數據 按照情緒分類存儲音頻,添加標籤,記錄情緒特徵 2 小時  
子任務 1.3 使用 WhisperX 將音頻轉換為文本 轉錄準確率達到85%以上 中等 5 小時  
細項 1.3.1 選取部分音頻進行轉錄測試 使用 WhisperX 轉錄音頻,記錄結果 中等 2 小時  
細項 1.3.2 驗證轉錄結果並調整參數以提高準確率 比較轉錄文本與音頻內容,調整參數,重複測試 中等 3 小時  
子任務 2.1 調查並選擇合適的情緒分析工具(如 VADER 或 TextBlob) 確定使用的工具,並能在本地環境中運行 中等 2 小時  
細項 2.1.1 研究可用的情緒分析工具 比較常用的情緒分析工具,選出最適合的工具 1 小時  
細項 2.1.2 選擇並安裝合適的工具 下載並在本地環境中安裝,運行示例程序以驗證安裝成功 1 小時  
子任務 2.2 對轉錄文本進行情緒分析和標註 完成10段文本的情緒標註,準確率達到80%以上 中等 8 小時  
細項 2.2.1 將轉錄文本導入情緒分析工具 準備轉錄文本數據,導入情緒分析工具環境中 1 小時  
細項 2.2.2 使用工具進行情緒分析並記錄結果 使用情緒分析工具進行情緒標註,記錄結果 中等 4 小時  
細項 2.2.3 驗證和調整分析結果 人工驗證情緒分析結果,修正錯誤標註,調整工具參數 中等 3 小時  
子任務 3.1 學習 llama 模型的基本概念和使用方法,並在本地或雲端設置環境 成功運行 llama 模型並生成簡單的文本 8 小時  
細項 3.1.1 研究 llama 模型的文檔和範例 閱讀文檔和範例,理解工作原理和應用方法 3 小時  
細項 3.1.2 設置模型運行環境 配置運行環境,安裝必要的軟件和依賴項 3 小時  
細項 3.1.3 運行基本示例並生成文本 運行基本示例程序,生成簡單文本,驗證輸出是否符合預期 中等 2 小時  
子任務 3.2 根據情緒標註結果使用 llama 模型生成歌詞 生成的歌詞能夠反映對應的情緒,通過人為判斷達到70%的情緒一致性 8 小時  
細項 3.2.1 根據情緒標註結果準備訓練數據 準備包含情緒標註的文本數據,轉換為適合訓練模型的格式 中等 2 小時  
細項 3.2.2 訓練或微調 llama 模型 使用準備好的數據對模型進行訓練或微調,記錄過程和參數設置 4 小時  
細項 3.2.3 生成歌詞並進行情緒一致性驗證 使用訓練好的模型生成歌詞,人工檢查情緒一致性 中等 2 小時  
子任務 4.1 在本地或雲端環境中安裝並設置 AudioCraft 成功運行 AudioCraft,生成簡單的音樂片段 5 小時  
細項 4.1.1 研究 AudioCraft 安裝步驟和文檔 閱讀文檔和安裝指南,瞭解系統要求和依賴項 2 小時  
細項 4.1.2 下載並安裝 AudioCraft 根據安裝指南下載並安裝軟件包和依賴項 2 小時  
細項 4.1.3 運行基本示例並生成音樂片段 運行基本示例程序,生成音樂片段,檢查輸出是否符合預期 中等 1 小時  
子任務 4.2 根據生成的歌詞使用 AudioCraft 創作樂曲 生成的音樂與歌詞情緒匹配度達到75%以上 8 小時  
細項 4.2.1 準備歌詞數據並輸入 AudioCraft 將生成的歌詞數據轉換為適合使用的格式並導入 AudioCraft 中等 2 小時  
細項 4.2.2 生成初步音樂並進行調整 根據歌詞生成初步音樂,檢查輸出結果,調整參數和設置 3 小時  
細項 4.2.3 驗證音樂質量和情緒匹配度 人工驗證音樂質量,確保音樂與歌詞情緒一致性達到75%以上 3 小時  
子任務 5.1 在本地或雲端環境中安裝並設置 ChatTTS 成功運行 ChatTTS,生成簡單的語音片段 中等 3 小時  
細項 5.1.1 研究 ChatTTS 安裝步驟和文檔 閱讀文檔和安裝指南,瞭解系統要求和依賴項 1 小時  
細項 5.1.2 下載並安裝 ChatTTS 根據安裝指南下載並安裝軟件包和依賴項 1 小時  
細項 5.1.3 運行基本示例並生成語音片段 運行基本示例程序,生成語音片段,檢查輸出是否符合預期 1 小時  
子任務 5.2 使用 ChatTTS 將生成的歌詞轉換為唱歌音頻 生成的音頻自然流暢,語音與歌詞情緒一致性達到70%以上 中等 5 小時  
細項 5.2.1 將生成的歌詞輸入 ChatTTS 準備生成的歌詞數據,導入 ChatTTS 的工作環境 1 小時  
細項 5.2.2 生成初步唱歌音頻 根據歌詞生成初步唱歌音頻,檢查輸出結果 中等 2 小時  
細項 5.2.3 調整音頻參數以提高質量 根據初步結果調整 ChatTTS 的參數和設置,重複生成和驗證過程 中等 2 小時  
子任務 6.1 將各模塊整合成一個完整的流程 能夠從音頻輸入到最終生成唱歌音頻的全過程順利運行 8 小時  
細項 6.1.1 設計整合流程和數據流 設計系統的數據流和工作流程,確保數據傳輸和處理順暢 2 小時  
細項 6.1.2 開發整合代碼 編寫代碼將各模塊整合到一起,進行初步測試並修復問題 4 小時  
細項 6.1.3 初步測試整合流程 使用完整流程進行初步測試,檢查每個步驟的輸出結果 2 小時  
子任務 6.2 對整個系統進行測試,確保各部分連貫且有效 系統運行穩定,最終作品質量達到預期標準,情緒一致性和音質良好 8 小時  
細項 6.2.1 準備測試數據和用例 準備多組測試數據和測試用例,確保覆蓋各種情況和邊界條件 中等 2 小時  
細項 6.2.2 進行系統測試並記錄結果 使用測試數據對系統進行全面測試,記錄每次測試的結果和問題 4 小時  
細項 6.2.3 分析測試結果並進行優化 分析測試結果,優化系統性能和解決問題,重複測試直至達標 2 小時  

預計總執行時數 152
實際總執行時數 0

@arealclimber
Copy link
Member Author

took 2 hrs

done

@arealclimber
Copy link
Member Author

扣除重複計算預估開發時數後,預估開發總時數為 79 小時

sum 預計執行時數 實際總執行時數
79 0

任務 任務描述 判斷標準 執行難度 預計執行時數 實際執行時數 預估準確率
#203 在本地環境或雲端服務器上安裝 WhisperX 成功運行 WhisperX 的基本示例,並生成一段簡短的轉錄文本 中等 3    
細項 1.1.1 研究 WhisperX 安裝步驟 瞭解系統要求和依賴包,記錄需要的步驟和工具 1    
細項 1.1.2 下載和安裝 WhisperX 根據安裝指南完成安裝,無錯誤 1    
細項 1.1.3 運行示例並驗證安裝 運行示例,生成轉錄文本並確保無錯誤 1    
#204 收集多樣化的對話音頻,確保包括不同情緒的表達 至少收集10段不同情緒的音頻資料 中等 5    
細項 1.2.1 搜索和下載公開的對話音頻數據集 下載並記錄來源,確保多種情緒表達的對話 2    
細項 1.2.2 確認音頻質量和情緒多樣性 檢查音頻質量,分類音頻,標記情緒特徵 1    
細項 1.2.3 整理和標記音頻數據 按照情緒分類存儲音頻,添加標籤,記錄情緒特徵 2    
#205 使用 WhisperX 將音頻轉換為文本 轉錄準確率達到85%以上 中等 5    
細項 1.3.1 選取部分音頻進行轉錄測試 使用 WhisperX 轉錄音頻,記錄結果 中等 2    
細項 1.3.2 驗證轉錄結果並調整參數以提高準確率 比較轉錄文本與音頻內容,調整參數,重複測試 中等 3    
#206 調查並選擇合適的情緒分析工具(如 VADER 或 TextBlob) 確定使用的工具,並能在本地環境中運行 中等 5    
細項 2.1.1 研究可用的情緒分析工具 比較常用的情緒分析工具,選出最適合的工具 3    
細項 2.1.2 選擇並安裝合適的工具 下載並在本地環境中安裝,運行示例程序以驗證安裝成功 2    
#207 對轉錄文本進行情緒分析和標註 完成10段文本的情緒標註,準確率達到80%以上 中等 8    
細項 2.2.1 將轉錄文本導入情緒分析工具 準備轉錄文本數據,導入情緒分析工具環境中 1    
細項 2.2.2 使用工具進行情緒分析並記錄結果 使用情緒分析工具進行情緒標註,記錄結果 中等 4    
細項 2.2.3 驗證和調整分析結果 人工驗證情緒分析結果,修正錯誤標註,調整工具參數 中等 3    
#208 學習 llama 模型的基本概念和使用方法,並在本地或雲端設置環境 成功運行 llama 模型並生成簡單的文本 8    
細項 3.1.1 研究 llama 模型的文檔和範例 閱讀文檔和範例,理解工作原理和應用方法 3    
細項 3.1.2 設置模型運行環境 配置運行環境,安裝必要的軟件和依賴項 3    
細項 3.1.3 運行基本示例並生成文本 運行基本示例程序,生成簡單文本,驗證輸出是否符合預期 中等 2    
#209 根據情緒標註結果使用 llama 模型生成歌詞 生成的歌詞能夠反映對應的情緒,通過人為判斷達到70%的情緒一致性 8    
細項 3.2.1 根據情緒標註結果準備訓練數據 準備包含情緒標註的文本數據,轉換為適合訓練模型的格式 中等 2    
細項 3.2.2 訓練或微調 llama 模型 使用準備好的數據對模型進行訓練或微調,記錄過程和參數設置 4    
細項 3.2.3 生成歌詞並進行情緒一致性驗證 使用訓練好的模型生成歌詞,人工檢查情緒一致性 中等 2    
#210 在本地或雲端環境中安裝並設置 AudioCraft 成功運行 AudioCraft,生成簡單的音樂片段 5    
細項 4.1.1 研究 AudioCraft 安裝步驟和文檔 閱讀文檔和安裝指南,瞭解系統要求和依賴項 2    
細項 4.1.2 下載並安裝 AudioCraft 根據安裝指南下載並安裝軟件包和依賴項 2    
細項 4.1.3 運行基本示例並生成音樂片段 運行基本示例程序,生成音樂片段,檢查輸出是否符合預期 中等 1    
#211 根據生成的歌詞使用 AudioCraft 創作樂曲 生成的音樂與歌詞情緒匹配度達到75%以上 8    
細項 4.2.1 準備歌詞數據並輸入 AudioCraft 將生成的歌詞數據轉換為適合使用的格式並導入 AudioCraft 中等 2    
細項 4.2.2 生成初步音樂並進行調整 根據歌詞生成初步音樂,檢查輸出結果,調整參數和設置 3    
細項 4.2.3 驗證音樂質量和情緒匹配度 人工驗證音樂質量,確保音樂與歌詞情緒一致性達到75%以上 3    
#212 在本地或雲端環境中安裝並設置 ChatTTS 成功運行 ChatTTS,生成簡單的語音片段 中等 3    
細項 5.1.1 研究 ChatTTS 安裝步驟和文檔 閱讀文檔和安裝指南,瞭解系統要求和依賴項 1    
細項 5.1.2 下載並安裝 ChatTTS 根據安裝指南下載並安裝軟件包和依賴項 1    
細項 5.1.3 運行基本示例並生成語音片段 運行基本示例程序,生成語音片段,檢查輸出是否符合預期 1    
#213 使用 ChatTTS 將生成的歌詞轉換為唱歌音頻 生成的音頻自然流暢,語音與歌詞情緒一致性達到70%以上 中等 5    
細項 5.2.1 將生成的歌詞輸入 ChatTTS 準備生成的歌詞數據,導入 ChatTTS 的工作環境 1    
細項 5.2.2 生成初步唱歌音頻 根據歌詞生成初步唱歌音頻,檢查輸出結果 中等 2    
細項 5.2.3 調整音頻參數以提高質量 根據初步結果調整 ChatTTS 的參數和設置,重複生成和驗證過程 中等 2    
#214 將各模塊整合成一個完整的流程 能夠從音頻輸入到最終生成唱歌音頻的全過程順利運行 8    
細項 6.1.1 設計整合流程和數據流 設計系統的數據流和工作流程,確保數據傳輸和處理順暢 2    
細項 6.1.2 開發整合代碼 編寫代碼將各模塊整合到一起,進行初步測試並修復問題 4    
細項 6.1.3 初步測試整合流程 使用完整流程進行初步測試,檢查每個步驟的輸出結果 2    
#215 對整個系統進行測試,確保各部分連貫且有效 系統運行穩定,最終作品質量達到預期標準,情緒一致性和音質良好 8    
細項 6.2.1 準備測試數據和用例 準備多組測試數據和測試用例,確保覆蓋各種情況和邊界條件 中等 2    
細項 6.2.2 進行系統測試並記錄結果 使用測試數據對系統進行全面測試,記錄每次測試的結果和問題 4    
細項 6.2.3 分析測試結果並進行優化 分析測試結果,優化系統性能和解決問題,重複測試直至達標 2    

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
3 hard level 3 documentation Improvements or additions to documentation
Projects
None yet
Development

No branches or pull requests

1 participant