网络赚钱平台

    # 語音聽寫 Windows SDK 文檔

    # 1、簡介

    qq微信語言聽寫,是由于很自動程序計算機語言外理,將很自動程序計算機語言錄音轉成為文轉換的的技木。qq微信語言聽寫的技木與詞法甄別的技木的不一樣重要,qq微信語言聽寫不要求由于一個詳細的詞法信息,其甄別范圍內是整體語種內的詞條。在聽寫時,軟件還可不可以上傳文件有人性化的詞表,如搞好關系人詳細信息框等,提升詳細信息框中詞句的切換率(見后章目)。

    語音聽寫詳細的接口介紹及說明請參考: MSC Windows API 文檔 (opens new window), 在集成過程中如有疑問,可登錄,查找答案或與其他開發者交流。

    小語種:暫不支持小語種。

    # 2、 SDK集成指南

    # 2.1 Demo運行步驟

    1.在有效控制面板在線下載分別sdk 2.進到sdk內samples目次,雙擊samples.sln文件名稱(需之前進行安裝Visual Studio)

    # 2.2 項目集成步驟

    # 2.2.1 sdk包說明

    《SDK文件組成部分看到》
    • bin:
      • msc.dll(32位動態鏈接庫)
      • msc_x64.dll(64位動態鏈接庫)
      • msc(生成msc日志)
      • wav(符合標準的音頻文件樣例)
      • 相關資源文件
    • doc:
      • 相關技術文檔
    • include:
      • 調用SDK所需頭文件
    • libs:
      • msc.lib(32位靜態鏈接庫)
      • msc_x64.lib(64位靜態鏈接庫)
    • samples:
      • samples.sln(VS工程文件,適用于vs2010、vs2012及以上Visual Studio版本)
      • iat_online_sample (語音聽寫示例-已錄制音頻)
      • iat_online_record_sample(語音聽寫示例-從麥克風錄入)

    注意:

    • 為了減少SDK包在應用中占用的大小,官網在下載單個功能的SDK包時, 可能并不包含其他功能,如下載喚醒的SDK包時,可能不包含聽寫或合成等功能,因此在運行未包含功能的示例時,可能會報錯。對此請下載對應功能的SDK,或下載組合的SDK包。

    # 2.2.2 sdk導入

    • Step 1: 新建工程
    1.打開瀏覽器Microsoft Visual Studio(本例在使用的是VS2010),選澤zip文件->重新命名->工程流程->Visual C++ ->Win32掌握臺app編譯程序,錄入工程流程稱謂,隨后打開知道鍵,

    img

    2.利用安裝系統軟件形式考慮“管理臺利用安裝系統軟件”,擴展按鈕考慮“空業務”,之后點擊進入提交。

    img

    • Step 2:配置工程屬性
    1.將SDK中bin,include,libs信息夾復刻到再建施工“Demo”信息夾下

    img

    2.拷貝到頭文件名稱 右鍵打開重建工業,挑選 “物理攻擊“,邁入工業物理攻擊html頁面:打開C/C++->常用->浮動富含壓縮文書目錄,輸入相較于工業壓縮文書Demo.vcxproj的相較路徑分析名,即相較于$(ProjectDir)的路徑分析名,另開源代碼怎么用壓縮文書也需不同布置。

    img

    3.把手機通訊錄msc.dll a. 初始化msc.lib相關文件下載格式:在main.c相關文件下載格式中發送以下的圖如圖編碼是什么,別詳細的編碼是什么請借鑒Samples中各自的聲音范本 目光:初始化根目錄發送相比較于過程相關文件下載格式的相比較根目錄
     #ifdef _WIN64
     #pragma comment(lib,"../libs/msc_x64.lib")
     #else
     #pragma comment(lib, "../libs/msc.lib")
     #endif
    
    b. 將msc.dll存在總目錄索引設計為作業總目錄索引,即“$(ProjectDir)..\bin\”

    img

    4.將任務可執行工作材料副本到msc.dll所以的目錄

    img

    5.SDK初始化后,bin/msc分類目錄下能形成記錄。(還要注意:msc壓縮文檔下需有msc.cfg壓縮文書)

    img

    # 2.2.3 API調用流程

    聲音聽寫核心API傳參方案如下如下圖如下:

    img

    詳盡源代碼獲取請選取 Samples中的 iat_online_sample(語音說話聽寫樣例)、API詳盡說明請選取

    # 2.3 參數與說明

    # 2.3.1 動態修正

    自2019/8/16起,高階性能-動態化改正免開花!可到這里 動態修正效果 (opens new window) 在線體驗

    • 未開啟動態修正:實時返回識別結果,每次返回的結果都是對之前結果的追加;
    • 開啟動態修正:實時返回識別結果,每次返回的結果有可能是對之前結果的的追加,也有可能是要替換之前某次返回的結果(即修正);
    • 開啟動態修正,相較于未開啟,返回結果的顆粒度更小,視覺沖擊效果更佳;
    • 使用動態修正功能需到控制臺-流式聽寫-高級功能處點擊開通,并設置相應參數方可使用,參數設置方法:dwa=wpgs ;
    • 動態修正功能僅 中文 支持;

    未開啟與開啟返回的結果格式不同,若開通了動態修正功能并設置了dwa=wpgs(僅中文支持),會有如下字段返回:

    參數 類型 描述
    pgs string 開啟wpgs會有此字段
    取值為 "apd"時表示該片結果是追加到前面的最終結果;取值為"rpl" 時表示替換前面的部分結果,替換范圍為rg字段
    rg array 替換范圍,開啟wpgs會有此字段
    假設值為[2,5],則代表要替換的是第2次到第5次返回的結果

    # 2.3.2 代理服務器設置

    在MSPLogin主板接口的params數據中含有:
    net_type=custom, proxy_ip=<host>, proxy_port=<port>
    其中,<host>,<port>替換為實際的代理服務器地址和端口。
    
    舉列:MSPLogin(NULL, NULL, "appid = 12345678, net_type=custom, proxy_ip=192.168.1.2, proxy_port=8080"); 注重:各性能間,以英文版單引號固定。
    接口類型原行: int MSPLogin(const char* usr, const char* pwd, const char* params)

    注意: 若在設置代理參數后,使用語音服務過程中,報錯10204/10205/10212等網絡異常錯誤時,請查閱以下內容,做出相關操作:

    • 訊飛語音SDK的通信協議使用的是標準HTTP1.1協議,其代理協議使用的是標準HTTP代理協議。
    • 代理服務器需要支持全雙工多問多答方式,即 pipeline 模式。
    • 代理服務器不能對80端口做限制,不能對如下域名做攔截: hdns.openspeech.cn scs.openspeech.cn open.xf-yun.com dev.voicecloud.cn
    • 需要確保代理服務器只負責轉發數據包,不能改變數據包的完整性和時序性。
    • 代理服務器在轉發數據包時,不能在HTTP協議頭部添加 IE6 標識頭。

    # 2.3.3 常用參數說明

    下述為通用參數指標值說明書怎么寫,更多的參數指標值設立請基準
    參數 名稱 說明
    language 語言 可取值:zh_cn:簡體中文
    en_us:英文
    默認值:zh_cn
    sample_rate 音頻采樣率 可取值:16000,8000
    默認值:16000
    accent 語言區域 可取值 :
    mandarin:普通話
    lmz:四川話
    默認值:mandarin
    注:更多方言可在控制臺添加開通
    vad_eos 允許尾部靜音的最長時間 0-10000毫秒。默認為2000如果尾部靜音時長超過了此值,則認為用戶音頻已經結束
    ptt 是否開啟標點符號添加 僅中文支持:
    1:開啟(默認值)
    0:關閉
    dwa 動態修正 可取值:wpgs
    詳情可參考上方動態修正說明
    nbest 多候選-句級 取值范圍[1,5],通過設置此參數,獲取在發音相似時的句子多候選結果。設置多候選會影響性能,響應時間延遲200ms左右。
    注:該擴展功能若未授權無法使用,可到控制臺-語音聽寫(流式版)-高級功能處免費開通;若未授權狀態下設置該參數并不會報錯,但不會生效。
    wbest 多候選-詞級 取值范圍[1,5],通過設置此參數,獲取在發音相似時的詞語多候選結果。設置多候選會影響性能,響應時間延遲200ms左右。
    注:該擴展功能若未授權無法使用,可到控制臺-語音聽寫(流式版)-高級功能處免費開通;若未授權狀態下設置該參數并不會報錯,但不會生效。
    rlang 繁體文字 (僅中文支持)字體
    zh-cn :簡體中文(默認值)
    zh-hk :繁體香港
    注:該繁體功能若未授權無法使用,可到控制臺-語音聽寫(流式版)-高級功能處免費開通;若未授權狀態下設置為繁體并不會報錯,但不會生效。
    domain 垂直引擎 應用領域
    iat:日常用語
    medical:醫療
    :醫療領域若未授權無法使用,可到控制臺-語音聽寫(流式版)-高級功能處添加試用或購買;若未授權無法使用會報錯11200。
    pd 領域個性化 僅中文支持)領域個性化參數
    game:游戲
    health:健康
    shopping:購物
    trip:旅行
    注:該擴展功能若未授權無法使用,可到控制臺-語音聽寫(流式版)-高級功能處添加試用或購買;若未授權狀態下設置該參數并不會報錯,但不會生效。

    注: 多候選效果是由引擎決定的,并非絕對的。即使設置了多候選,如果引擎并沒有識別出候選的詞或句,返回結果也還是單個。

    # 2.3.4 識別結果

    JSON字段 英文全稱 類型 說明
    sn sentence number 第幾句
    ls last sentence boolean 是否最后一句
    bg begin number 保留字段,無需關注
    ed end number 保留字段,無需關注
    ws words array
    cw chinese word array 中文分詞
    w word string 單字
    sc score number 分數
    聽寫沒想到舉例:
    {
        "sn": 1,
        "ls": true,
        "bg": 0,
        "ed": 0,
        "ws": [
            {
                "bg": 0,
                "cw": [
                    {
                        "w": "今天",
                        "sc": 0
                    }
                ]
            },
            {
                "bg": 0,
                "cw": [
                    {
                        "w": "的",
                        "sc": 0
                    }
                ]
            },
            {
                "bg": 0,
                "cw": [
                    {
                        "w": "天氣",
                        "sc": 0
                    }
                ]
            },
            {
                "bg": 0,
                "cw": [
                    {
                        "w": "怎么樣",
                        "sc": 0
                    }
                ]
            },
            {
                "bg": 0,
                "cw": [
                    {
                        "w": "。",
                        "sc": 0
                    }
                ]
            }
        ]
    }
    
    多待選結論實例:
    {
        "sn": 1,
        "ls": false,
        "bg": 0,
        "ed": 0,
        "ws": [
            {
                "bg": 0,
                "cw": [
                    {
                        "w": "我想聽",
                        "sc": 0
                    }
                ]
            },
            {
                "bg": 0,
                "cw": [
                    {
                        "w": "拉德斯基進行曲",
                        "sc": 0
                    },
                    {
                        "w": "拉得斯進行曲",
                        "sc": 0
                    }
                ]
            }
        ]
    }
    

    # 3、常見問題

    # 錯誤碼及相應解決方案查詢網址

    答: 錯誤碼及相應解決方案查詢 (opens new window)

    # 獲取不到識別/聽寫結果

    答:原由能夠是: QISRSessionBegin的主要參數設制不好確,如不會有設制好合理的的搜索平臺類形等。 雙聲道模式不正確,加盟商端大力不支持的雙聲道編破譯貝葉斯只大力不支持16位Intel PCM模式的雙聲道。

    # 獲取到語音聽寫結果為空或錯誤內容或者內容不全的原因是什么?

    答:原因可能是:
    1、音頻格式不正確,客戶端支持的音頻編解碼算法只支持16位Intel PCM格式的音頻,請使用Cool Edit Pro工具(網頁搜索下載即可)查看音頻格式,sdk目前支持的格式是 pcm 和 wav 格式、音頻采樣率要是 16k 或者 8k、采樣精度16 位、單聲道音頻。請使用cool edit軟件(網頁搜索下載此軟件即可)查看音頻格式是否滿足相應的識別引擎類型
    2、引擎的參數設置不正確,如沒有設置好正確的引擎類型和采樣率等。
    3、音頻中間有靜音或者雜音音頻超過了后端點(默認為2000ms)的設置,此時請使用Cool Edit Pro工具查看音頻內容,并且設置后端點(vad_eos)為最大值10000ms
    包含超過后端點最大值的靜音或者雜音音頻識別不完整是正常的。 4、此問題主要是在調用QISRAudioWrite時沒有正確設置參數audioStatus所致,此參數在寫入非最后一個音頻數據塊時需要設置為2,寫入最后一個數據塊時需要設置為4,以告訴MSC音頻寫入完畢。如果只有一個音頻數據塊,audioStatus也需要設置為4。

    # 可以拿到識別/聽寫結果但是響應很慢

    答:此故障行試穿下述形式來解決處理: 傳參QISRAudioWrite界面寫音頻文件文件信息表格時,硬著頭皮保證確保“平均速度推送”——周期時間性的推送定長信息表格,保證確保邊錄邊發,防止出現一遍推送信息表格過量的音頻文件文件。 所采用QISRAudioWrite界面和QISRGetResult界面混調的手段。在傳參QISRAudioWrite界面時,行觀察out型性能參數recogStatus,如何其指標值0,說明逐漸有(部件)判斷最后臨時文件在MSC中了,于此行傳參QISRGetResult來更改最后。

    # 如何設置語音网络赚钱平台服務URL?

    答:在MSPLogin模塊中調用:server_url = http://YourDomainName/msp.do (YourDomainName指語音視頻网络赚钱平台精準服務一級域名,請開發設計者自愿復制) 舉例:MSPLogin(NULL, NULL, "appid = 12345678, server_url = http://sdk.openspeech.cn/msp.do"); 特別留意:各性能參數間,以英語句號分割。 模塊扮演: int MSPLogin(const char* usr, const char* pwd, const char* params)

    # SDK形式是否支持多路并發?

    答:sdk:雇主端避免計劃設計,認可軟件Android、ios、windows、linux等軟件,不認可軟件連接數; webapi:貼心服務端避免計劃設計,不影響軟件、不影響語言英語,認可軟件連接數。

    # 如何設置識別業務所需的額外參數(其它業務類似)?

    答:如要設置參數:vad_eos = 10000和vad_bos = 10000
    const char* session_begin_params = "sub = iat, domain = iat, language = zh_cn, accent = mandarin, sample_rate = 16000, result_type = plain, result_encoding = utf8, vad_eos = 10000, vad_bos = 10000"; 各類參數設置參考

    # 語音聽寫支持識別多長時間的音頻,支持的音頻格式是什么?

    答:語音聽寫的功能是可以識別60S以內的短音頻,將音頻轉化成文本信息。
    聽寫sdk目前支持的格式是 pcm 和 wav 格式、音頻采樣率要是 16k 或者 8k、采樣精度16 位、單聲道音頻。請使用cool edit軟件(網頁搜索下載此軟件即可)查看音頻格式是否滿足相應的識別引擎類型,否則識別為空或者識別為錯誤文本,格式必須正確,除上述格式均不識別,音頻格式一定要滿足要求。現語音聽寫WebAPI接口的中文普通話和英文支持mp3格式,如有需要,請參考語音聽寫(流式版)WebAPI (opens new window)
    具體可以參考:http://bbs.teknisi-computer.com/forum.php?mod=viewthread&tid=7051
    另外我們識別的音頻長度最大為 60S,在使用音頻是要注意你的本地音頻的參數要和代碼里的讀取音頻參數保持一致

    # Windows聽寫sdk如何下載?

    答:文檔中心---快速指引 (opens new window)有介紹步驟---根據步驟下載Windows在線聽寫sdk

    # SDK是否支持本地語音能力?

    答:Windows網絡平臺SDK逐漸可以支持當地人合成圖片、當地人系統命令詞辨別的、當地人語言觸發能力了,有個用途后通往用途把握臺保存各精準服務sdk就行。

    # 為什么超過一分鐘的音頻文件,一分鐘后的部分無法識別?

    答:聽寫能夠自動鑒別60s以內的語音,超出一點鐘是沒法自動鑒別的。

    # 每天免費使用量是多少呢?

    答:時刻有500次的完全免費加載量,已經超過500次需購賣套餐內容包才華依然運行。

    # 為什么使用英文音頻識別為中文?

    答:運行英文音標設別需設施language=en_us

    # 如何控制標點符號的返回?

    答:配置asr_ptt可調制標點標點的獲取,順利通過此運作,配置聽寫文本格式最終結果能否含標點標點。0說明不加標點,1則說明帶標點。
    日赚300的网络兼职 趣闲赚app persistentfrontiers.comambrosiachocolatemaker.comweb20office.com