网络赚钱平台

    # 語音轉寫 Java SDK 文檔

    # 1、簡介

    語音轉寫(Long Form Automatic Speech Recognition):基于科大訊飛獨立研究的深度全序列卷積神經網絡語音識別框架(Deep Fully Convolutional Neural Network, DFCNN),針對語音的長時相關性進行語言建模,將音頻數據轉換成文本數據,為后續的信息處理和數據挖掘提供基礎。 具體表現形式為,將多種格式的長段音頻文件(5小時以內)轉換成包含時間戳、詞句置信度、詞屬性以及句子標志的文字信息。文字信息提供分詞形式以及整段文字形式以及發音人分離功能。

    轉寫的是已錄制音頻(非實時),音頻文件上傳成功后進入等待隊列,待轉寫成功后用戶即可獲取結果,返回結果時間受音頻時長以及排隊任務量的影響。如遇轉寫耗時比平時延長,大概率表示當前時間段出現轉寫高峰,即有任務積壓排隊,屬正常現象,請耐心等待
    為使轉寫服務更加通暢,請盡量轉寫5分鐘以上的音頻文件,上傳大量的短音頻易引起網絡和服務器資源緊張,從而導致任務排隊積壓。
    另外,語音轉寫是SLA協議對象服務之一,我們對付費用戶承諾有效任務耗時最大不超過5小時,賠償標準等詳情請參考SLA協議 (opens new window)

    SDK下載請點擊 語音轉寫Java SDK下載 (opens new window),開發文檔詳見下方。

    音頻時長與理論返回時間可以參考下表(請注意,實際返回時長受上傳的音頻時長和任務總量影響,忙時會出現任務排隊情況):

    音頻時長X(分鐘) 參考返回時間Y(分鐘)
    X<10 Y<3
    10<=X<30 3<=Y<6
    30<=X<60 6<=Y<10
    60<=X 10<=Y<20

    # 2、SDK集成指南

    # 2.1 Demo運行步驟

    # 2.1.1 創建賬號&應用

    進入訊飛開放平臺主頁http://teknisi-computer.com/ (opens new window)或者對應的產品頁,點擊右上角登錄或者注冊按鈕,完成登錄操作。

    流入掌控臺“我的應該用”列表框頁,彈窗右下角“構建新應該用”,并填的涉及應該用資料,自己的身份信息申請實名資質認證消費者可構建1個應該用,中小的企業身份信息申請實名資質認證消費者可構建20個應該用,若構建越來越多應該用消費者可選擇擇中小的企業身份信息申請實名資質認證。

    # 2.1.2 開通&購買服務

    創立了完運用軟件時候,在現階段運用軟件下,選“話音轉寫”,第三在把控臺下側打開網頁領到使用耗時亦或是選擇真正耗時。

    # 2.1.3 獲取appid和secret_key以及SDK下載

    訂購達到后,在“保持臺”的對應著的運用上,邁入發音轉寫一欄,考慮Java SDK下載百度。若為WebAPI,就能夠隨便點開技術設備表格看到插口表格,別的在提供業務的貨品頁“發音轉寫”提供業務管理方法中,就能夠看到密匙,請一定要記住運用唯一性標示牌appid和轉寫提供業務仿問密匙secret_key!

    # 2.1.4 demo運行方式

    下載使用的demo為條件maven水利。水利內已構成Java SDK的相匹配jar包,有時候pom文件名中現在已經配值好合理的忽略關系的。找回編碼中LfasrSDKDemo類,更換編碼中的appid、secret_key。以后自動運行其main工藝即刻。

    # 2.2 項目集成步驟

    # 2.2.1 sdk包說明

    獲取一個到的Java SDK包組成下列:
    src
    
    	-- main
    
    		-- java
    
    			-- com.iflytek.lfasr.demo
    
    				-- LfasrSDKDemo
    
    		-- resources
    
    			-- audio
    
    				-- lfasr.wav
    
    			-- lib
    
    				-- lfasr-sdk-3.0.0.jar
    
    pom.xml
    
    LfasrSDKDemo:為demo執行程序,帶有各式用途舉例; lfasr.wav:為范例雙聲道; lfasr-sdk-3.0.0.jar:為語音說話轉寫Java SDK的jar包。

    # 2.2.2 sdk導入

    了解demo中采用的方式后,都可以將Java SDK融合到我們的應運市政工程中。 1、將上邊 lfasr-sdk-3.0.0.jar 包放上目標值工程項目; 2、圖案填充demo例子都會進行途徑調用代碼既可以。

    # 2.3 參數與說明

    # 2.3.1 Java開發接口說明

    SDK入口程序類:LfasrClient,通過 LfasrClient.getInstance(......); 創建客戶端實例。

    # 1、SDK接口列表
    接口名稱 參數 返回值 功能簡介
    getInstance (
    String appId,
    String secretKey
    )
    appId:應用appid
    secretKey:應用secret_key
    LfasrClient 創建客戶端實例
    getInstance (
    String appId,
    String secretKey,
    String proxyUrl
    )
    appId:應用appid
    secretKey:應用secret_key
    proxyUrl:設置網絡代理
    LfasrClient 創建客戶端實例
    當需要設置代理時使用
    getInstance (
    String appId,
    String secretKey,
    int coreThreads,
    int maxThreads,
    String proxyUrl
    )
    appId:應用appid
    secretKey:應用secret_key
    coreThreads:核心線程數
    maxThreads:最大線程數
    proxyUrl:設置網絡代理
    LfasrClient 創建客戶端實例
    有特殊性能要求時使用
    getInstance (
    String appId,
    String secretKey,
    int coreThreads,
    int maxThreads,
    int maxConnections,
    int connTimeout,
    int soTimeout,
    String proxyUrl
    )
    appId:應用appid
    secretKey:應用secret_key
    coreThreads:核心線程數
    maxThreads:最大線程數
    maxConnections:最大網絡連接數
    connTimeout:連接超時時間(ms)
    soTimeout:響應超時時間(ms)
    proxyUrl:設置網絡代理
    LfasrClient 創建客戶端實例
    有特殊性能要求時使用
    upload (
    String audioFilePath
    )
    audioFilePath:音頻文件路徑 Message 上傳音頻文件
    創建轉寫任務
    upload (
    String audioFilePath,
    Map<String, String> param
    )
    audioFilePath:音頻文件路徑
    param:業務擴展參數 (見下表)
    Message 上傳音頻文件
    創建轉寫任務
    getProgress (
    String taskId
    )
    taskId:任務ID,
    由upload接口返回的Message中獲取
    Message 獲取轉寫進度
    getResult (
    String taskId
    )
    taskId:任務ID,
    由upload接口返回的Message中獲取
    Message 獲取轉寫結果
    # 2、可配置參數
    參數 類型 必須 說明 示例
    lfasr_type string 轉寫類型,可選值: 0(標準版-已錄制音頻,格式包括 wav,flac,opus,mp3,m4a), 2(電話專用版,已取消電話專用版套餐),默認0 0
    has_participle string 轉寫結果是否包含分詞信息 false或true, 默認false
    has_seperate string 轉寫結果中是否包含發音人分離信息 false或true, 標準版默認:false,電話版默認:true
    role_type string 支持參數如下
    1: 通用角色分離
    該字段只有在開通了角色分離功能的前提下才會生效,正確傳入該參數后角色分離效果會有所提升。 如果該字段不傳,默認采用 1 類型
    max_alternatives string 轉寫結果中最大的候選詞個數 默認:0,最大不超過5
    eng_vad_margin int 首尾是否帶靜音信息,不帶靜音信息可以使得詞相對于本句子的起始幀更精確
    0:不顯示
    1:顯示
    默認為 1,帶靜音信息
    has_smooth string 開啟或關閉順滑詞(目前只有中文、英文支持順滑詞,其他方言和小語種暫不支持順滑詞,也不支持順滑詞的關閉)
    開啟:true
    關閉:false
    默認:true(開啟順滑詞)
    track_mode string 聲道分軌轉寫模式,可選值:1,2
    1: 表示不分軌
    2: 表示分軌
    :此功能適用于雙聲道音頻發音人分離場景,要求雙聲道音頻每個聲道是獨立發音人,開啟該功能后,參數speaker_number失效
    默認:1(適用通話時兩個人對話的場景)
    speaker_number string 發音人個數,可選值:0-10,0表示盲分
    :發音人分離目前還是測試效果達不到商用標準,如測試無法滿足您的需求,請慎用該功能。
    默認:2(適用通話時兩個人對話的場景)
    language string 語種
    cn:中英文&中文(默認)
    en:英文(英文不支持熱詞)
    其他小語種:可到控制臺-語音轉寫-方言/語種處添加試用或購買,添加后會顯示該小語種參數值。若未授權,使用將會報錯26607。
    cn
    eng_rlang string 控制廣東話(粵語)返回的文本結果為繁體還是簡體
    簡體:0
    繁體:1
    默認:1(返回繁體文本)
    pd string 垂直領域個性化參數:
    法院: court
    教育: edu
    金融: finance
    醫療: medical
    科技: tech
    體育: sport
    政府: gov
    游戲: game
    電商: ecom
    汽車: car
    設置示例: params.put("pd", "edu")
    pd為非必須設置參數,不設置參數默認為通用
    hotWord string 會話級熱詞(使用此參數需要appid對應控制臺的個性化熱詞置空)用以提升專業詞匯的識別率,注意點如下:
    1、單個熱詞設置:熱詞
    2、多個熱詞設置:熱詞1|熱詞2|熱詞3
    3、單個熱詞長度不得大于16
    4、熱詞個數限制200個
    設置示例
    1、prepareParam.put("hotWord", "梁育生")
    2、prepareParam.put("hotWord", "梁育生|開心")
    # 3、類型說明
    Message 響應的短信息類
    屬性名稱 類型 說明
    ok int 0:成功
    -1:失敗
    errNo int 錯誤碼 (見錯誤碼)
    failed String 失敗原因
    data String 數據
    upload接口,為taskId
    getProgress接口,為狀態json數據
    getResult接口,為結果json數據

    # 2.3.2 調用樣例

    //1、新建客服端示例
    LfasrClient lfasrClient = LfasrClient.getInstance(APP_ID, SECRET_KEY);
    
    //2、提交音響系統文件
    Message task = lfasrClient.upload(AUDIO_FILE_PATH);
    String taskId = task.getData();
    System.out.println("轉寫世界任務 taskId:" + taskId);
    
    //3、檢查轉寫進度
    int status = 0;
    while (status != 9) {
        Message message = lfasrClient.getProgress(taskId);
        JSONObject object = JSON.parseObject(message.getData());
        status = object.getInteger("status");
        System.out.println(message.getData());
        TimeUnit.SECONDS.sleep(2);
    }
    //4、取得最后
    Message result = lfasrClient.getResult(taskId);
    System.out.println("轉寫最終結果: \n" + result.getData());
    

    # 2.3.3 結果解析

    字段名 說明
    bg 句子相對于本音頻的起始時間,單位為ms
    ed 句子相對于本音頻的終止時間,單位為ms
    onebest 句子內容
    speaker 說話人編號,從1開始,未開啟說話人分離時speaker都為0
    si 句子標識,相同si表示同一句話,從0開始
    注:僅開啟分詞或者多候選時返回
    wordsResultList 分詞列表
    注:僅開啟分詞或者多候選時返回
    alternativeList 多候選列表,按置信度排名
    注:僅開啟分詞或者多候選時返回
    wordBg 詞相對于本句子的起始幀,其中一幀是10ms
    注:僅開啟分詞或者多候選時返回
    wordEd 詞相對于本句子的終止幀,其中一幀是10ms
    注:僅開啟分詞或者多候選時返回
    wordsName 詞內容
    注:僅開啟分詞或者多候選時返回
    wc 句子置信度,范圍為[0,1]
    注:僅開啟分詞或者多候選時返回
    wp 詞屬性,n代表普通詞,r代表人名,d代表數字,m代表量詞,s代表順滑詞(語氣詞),t代表地名&多音字,p代表標點,g代表分段標識
    注:僅開啟分詞或者多候選時返回

    # 2.3.4 錯誤碼

    錯誤碼 錯誤碼描述
    0 成功
    26000 轉寫內部通用錯誤
    26100 轉寫配置文件錯誤
    26101 轉寫配置文件app_id/secret_key為空
    26102 轉寫配置文件lfasr_host錯誤
    26103 轉寫配置文件file_piece_size錯誤
    26104 轉寫配置文件file_piece_size建議設置10M-30M之間
    26105 轉寫配置文件store_path錯誤,或目錄不可讀寫
    26201 轉寫參數上傳文件不能為空或文件不存在
    26202 轉寫參數類型不能為空
    26203 轉寫參數客戶端生成簽名錯誤
    26301 轉寫斷點續傳持久化文件讀寫錯誤
    26302 轉寫斷點續傳文件夾讀寫錯誤
    26303 轉寫恢復斷點續傳流程錯誤,請見日志
    26401 轉寫上傳文件路徑錯誤
    26402 轉寫上傳文件類型不支持錯誤
    26403 轉寫本地文件上傳超過限定大小500M
    26404 轉寫上傳文件讀取錯誤
    26500 HTTP請求失敗
    26501 轉寫獲取版本號接口錯誤
    26502 轉寫預處理接口錯誤
    26503 轉寫上傳文件接口錯誤
    26504 轉寫合并文件接口錯誤
    26505 轉寫獲取進度接口錯誤
    26506 轉寫獲取結果接口錯誤
    26600 轉寫業務通用錯誤
    26601 非法應用信息
    26602 任務ID不存在
    26603 接口訪問頻率受限(默認1秒內不得超過20次)
    26604 獲取結果次數超過限制,最多100次
    26605 任務正在處理中,請稍后重試
    26606 空音頻,請檢查
    26610 請求參數錯誤
    26621 預處理文件大小受限(500M)
    26622 預處理音頻時長受限(5小時)
    26623 預處理音頻格式受限
    26625 預處理服務時長不足。您剩余的可用服務時長不足,請移步產品頁http://teknisi-computer.com/services/lfasr 進行購買或者免費領取
    26631 音頻文件大小受限(500M)
    26632 音頻時長受限(5小時)
    26633 音頻服務時長不足。您剩余的可用服務時長不足,請移步產品頁http://teknisi-computer.com/services/lfasr 進行購買或者免費領
    26634 文件下載失敗
    26635 文件長度校驗失敗
    26640 文件上傳失敗
    26641 上傳分片超過限制
    26642 分片合并失敗
    26643 計算音頻時長失敗,請檢查您的音頻是否加密或者損壞
    26650 音頻格式轉換失敗,請檢查您的音頻是否加密或者損壞
    26660 計費計量失敗
    26670 轉寫結果集解析失敗
    26680 引擎處理階段錯誤
    26607 轉寫語種未授權或已過有效期

    # 2.3.5 狀態碼

    狀態ID 狀態描述
    0 任務創建成功
    1 音頻上傳完成
    2 音頻合并完成
    3 音頻轉寫中
    4 轉寫結果處理中
    5 轉寫完成
    9 轉寫結果上傳完成

    # 2.4 實踐指南

    (1)手機輸入音頻視頻的版式&比特率 若是因素能夠,請要盡可能的操作pcm,alaw或是ulaw簡碼查詢的原wav音屏或是無損音樂音屏進行壓縮簡碼查詢(FLAC)來視頻錄制及傳遞音屏。

    如果有壓縮需求,在原始音頻比特率較高(大于16kHz16bit)的情況下,可以采用任意系統支持的格式;而在原始音頻比特率較低(小于16kHz16bit)的情況下,建議采用壓縮比小于10的opus,使用其他有損編碼,如mp3,m4a等會減弱識別準確率。

    注,無縮短的pcm音頻文件:比特率(bps)=取樣率(kHz)*六位數(bit)*聲道數;其他業務類型音頻文件的比特率可由查看手機其音頻文件特性提升。 (2)情況音和噪音 手機錄音時刻意便用靠到還有偏向發生中心點的話筒(譬如耳麥);談談已錄影音視頻軟件,推薦 只摘取人聊天說話有些,防止大環境音混疊;談談都已經 錄影好的音視頻軟件,在轉寫剎車系統在轉寫以后會對音視頻軟件通過消除噪音的操作,這樣不推薦 您按照30%的消除噪音加工。 (3)多名與此同時拼音發音情形 當對個讀音人互相采摘音頻文件時,提議對音頻文件參與再次切分,只要一中請掌握的音頻文件只內含倆位讀音人的聲音。因當2人互相讀音或2人讀音音量有不同于時,部份聲音有概率會被作為背景圖噪聲而消除。 (4)合理音頻軟件的批量下載 為了能制止您的時間長度損害,請上傳下載文件尋常連播器可連播的語音。假如上傳下載文件加密解密、損傷的語音,可能是改成語音后綴名,很有可能會誘發轉寫出現未知錯誤可能是打出亂碼報告。 (5)音頻視頻幅值 音視頻視頻的幀平均值震幅值在5000~20000區間內為絕佳。用不上輕易拍攝會高震幅值的音視頻視頻,那么有將會誘發截幅,較低鑒別率。 (6)語音時限 語音視頻轉寫比較大的結構特征為體現了長時背誦性能,及時間越長的語音,其精確度率會越高。最好在使用多于5分鐘的語音來轉寫。

    # 2.5 教學視頻

    # 3、常見問題

    # 語音轉寫支不支持并發?

    答:可以支持,要保障指定個appid每秒需求標準接口的次數極大值在20次以內。

    # 語音轉寫可以試用嗎?

    答:能夠領域新觀眾生日禮包,要根據您資格認證的層面,作為最大50小的全免 時常,有效果期為年 。

    # 語音轉寫的返回速度有多快?

    答:關于返回時長快慢,需要看當時的轉寫任務量以及是否是高峰期,如任務積壓,排隊處理需要時間,時間上會長些。
    另外語音轉寫是SLA協議對象服務之一,我們對付費用戶承諾有效任務耗時最大不超過5小時,賠償標準等詳情請參考SLA協議 (opens new window)

    # 語音轉寫支持哪些應用平臺?

    答:微信語音轉寫兼容Java和WebAPI主板接口。

    # 語音轉寫支持哪些音頻格式?

    答:近幾年手機語音轉寫的支持系統的音頻格局為:已收錄音頻,wav,flac,opus,m4a,mp3,單聲道&多聲道,的支持系統語種:2英文版常見話、用英語、激活的小語種或者2英文版方言詞;取樣系統率:8KHz,16KHz;取樣系統精確:8bit,16bit

    # 語音轉寫電話版和標準版什么區別?

    答:目前為止手機 版和基準版早已經合共為規范的板本,手機 版老顧客的間隔時間也可以接著選用。伴有后的板本幫助多見音人脫離,到底產品參數優化請參照規劃設計文件。

    # 語音轉寫支持什么語言?

    答:支撐語種:漢語普通級話、英語圖片,小語種與漢語口音會到有效后臺-話音轉寫-口音/語種處插入免費試用或采購。
    日赚300的网络兼职 趣闲赚app persistentfrontiers.comambrosiachocolatemaker.comweb20office.com