Thông báo

Collapse
No announcement yet.

Nhận dạng tiếng nói

Collapse
X
 
  • Lọc
  • Giờ
  • Show
Clear All
new posts

  • #16
    Nhận dạng tiếng nói dung phương pháp phổ và thuật toán thời gian động

    chào các bác!hiện nay em đang làm về nhận dạng tiếng nói dùng Phương pháp phổ và thuật toán thời gian động.Nhận dạng tiếng nói dùng thuật toán thời gian động là phương pháp nhận dạng chính xác nhất.Nhưng có rất ít tài liệu nói về thuật toán này.Bác nào có tài liệu về thuật toán này chia sẻ cho em đươc không

    Comment


    • #17
      Cảm ơn bạn nhé, tài liệu rất hay!

      Comment


      • #18
        Chào các bạn,

        Thực ra nhận các thuật toán nhận dạng giọng nói hiện nay đều đã có code viết bằng matlab hết rùi . Viết bằng matlab thì khá đơn giản vì hỗ trợ các phép toán xử lý số nhiều lắm rồi.

        Vừa rồi tôi làm xử lý giọng nói bằng họ DSP của TI, dòng C2000. Kết quả cũng chấp nhận được ( nhận dạng khoảng 6 từ ).

        Tôi có tổng hợp lại các link tham khảo ( các code bằng MATLAB ), đồng thời trình bày luận văn của tôi tại địa chỉ này http://sites.google.com/site/nqdinhddt/academic-project-1/voicerecognitionproject. .

        ACE nào làm vấn đề này, có thể trao đổi với tôi, nếu giứp được gì tôi sẽ cố.

        Thân.
        Still waters run deep.

        Comment


        • #19
          mình rất muốn trao đổi và học hỏi về vấn đề này. Mong bạn giúp đỡ

          Comment


          • #20
            Để nhận dạng tiếng nói, ta làm theo các qui trình sau:
            1. Tạo cơ sở dữ liệu
            2. Nhận dạng

            Các bước tạo csdl:
            1. Thu âm
            2. Tiền xử lý
            3. Trích đặc trưng
            4. Lưu vào csdl
            5. Lặp lại cho tất cả tiếng nói cần nhận dạng

            Các bước nhận dạng:
            1. Thu âm
            2. Tiền xử lý
            3. Trích đặc trưng
            4. Nhận dạng

            Có các phương pháp nhận dạng hiện nay như sau:
            1. Đối sánh mẫu (so sánh mẫu cần nhận dạng với mẫu đã lưu)
            2. Dùng mạng neural
            3. Dùng mô hình ẩn (phương pháp thống kê)
            4...
            Có các phương pháp trích đặc trưng:
            1. Dùng dãy lọc thông dãi
            2. Dùng FFT hoặc CWT trích forman
            3. ...
            Còn gì nữa thì em cũng chưa biết. Bác nào biết xin bổ sung thêm.

            Comment


            • #21
              vô nghe kinh nghiệm của người đi trước...
              |

              Comment


              • #22
                mih dang nghien cuu ve phan ky that so ne co ban nao co tai lieu hay dia chi nao thi giup minh voi minh rat cam on

                Comment


                • #23
                  can phai tich cuc nen nua .chuc ban thanh cong

                  Comment


                  • #24
                    Nguyên văn bởi TamGiang Xem bài viết
                    Chào các bạn,

                    Thực ra nhận các thuật toán nhận dạng giọng nói hiện nay đều đã có code viết bằng matlab hết rùi . Viết bằng matlab thì khá đơn giản vì hỗ trợ các phép toán xử lý số nhiều lắm rồi.

                    Vừa rồi tôi làm xử lý giọng nói bằng họ DSP của TI, dòng C2000. Kết quả cũng chấp nhận được ( nhận dạng khoảng 6 từ ).

                    Tôi có tổng hợp lại các link tham khảo ( các code bằng MATLAB ), đồng thời trình bày luận văn của tôi tại địa chỉ này http://sites.google.com/site/nqdinhddt/academic-project-1/voicerecognitionproject. .

                    ACE nào làm vấn đề này, có thể trao đổi với tôi, nếu giứp được gì tôi sẽ cố.

                    Thân.
                    mình hiện tại cũng làm đề tài về xử lý giọng nói giống như bạn. Mình có thể liên lạc với bạn như thế nào? Bạn hồi âm sớm cho mình nhé

                    Comment


                    • #25
                      Một vấn đề nữa là thiếu ram.

                      Comment


                      • #26
                        Nguyên văn bởi cukhoaimi Xem bài viết
                        mình hiện tại cũng làm đề tài về xử lý giọng nói giống như bạn. Mình có thể liên lạc với bạn như thế nào? Bạn hồi âm sớm cho mình nhé
                        Đây là luận văn của mình http://www.scribd.com/doc/22200269/I...SP-TMS320C2812

                        Điạ chỉ liên lạc là nqdinhddt tại gmail.
                        Still waters run deep.

                        Comment


                        • #27
                          Ram là vấn đề lớn khi làm nhận dạng âm thanh trên nền chip nhúng.

                          Khóa mình có mấy người làm trên dspic kiêu la quá trời vì thiếu ram, thiếu dụng cụ debug ... cuối cùng ko có ai làm được trọn vẹn cả. Năm sau vẫn có người đâm đầu vào, chắc có lẽ nguồn trợ giúp của PIC lớn.

                          Có một luận văn khác khá hay của Hà Thúc Phùng, làm trên máy tính. Lý thuyết được đề cập khá kĩ và hay trong luận văn này
                          http://www.scribd.com/doc/22202302/V...gnition-System.
                          Đây là tài liệu tham khảo tốt khi làm nhận dạng giọng nói :-).
                          Still waters run deep.

                          Comment


                          • #28
                            Theo mình thì bạn nên xác định rõ mục tiêu cái đã, bạn nhận bao nhiêu từ, cụ thể là những từ nào rồi từ đó mới chọn giải thuật và chip cho phù hợp. Nếu bộ từ vựng khá lớn ( trên 20 từ) hoặc các từ cần nhận quá gần nhau ( ví dụ La, Lan chẳng hạn), thì bạn nên chọn các đặc trưng mạnh đi kèm với nó là chip mạnh. Như mình khi làm luận văn tốt nghiệp, mình xác định chỉ nhận 5 từ trái,phải, tới,lùi và dừng nên dùng con Atmega16 là đủ rồi.
                            Chúc bạn thành công.

                            Comment


                            • #29
                              Nguyên văn bởi pieuxvu Xem bài viết
                              Theo mình thì bạn nên xác định rõ mục tiêu cái đã, bạn nhận bao nhiêu từ, cụ thể là những từ nào rồi từ đó mới chọn giải thuật và chip cho phù hợp. Nếu bộ từ vựng khá lớn ( trên 20 từ) hoặc các từ cần nhận quá gần nhau ( ví dụ La, Lan chẳng hạn), thì bạn nên chọn các đặc trưng mạnh đi kèm với nó là chip mạnh. Như mình khi làm luận văn tốt nghiệp, mình xác định chỉ nhận 5 từ trái,phải, tới,lùi và dừng nên dùng con Atmega16 là đủ rồi.
                              Chúc bạn thành công.
                              bạn ơi , bạn làm thành công rồi hả. giỏi quá. . bạn có thể cho mình tham khảo luận văn của bạn đựoc không. email của mình là : phuthuygia.cuoichoibay@gmail.com. CẢm ơn bạn nhiều nha.

                              Comment


                              • #30
                                Nguyên văn bởi hoangthehung Xem bài viết
                                bạn ơi , bạn làm thành công rồi hả. giỏi quá. . bạn có thể cho mình tham khảo luận văn của bạn đựoc không. email của mình là : phuthuygia.cuoichoibay@gmail.com. CẢm ơn bạn nhiều nha.
                                Thành thật xin lỗi bạn!
                                Giải thuật này mình tự nghiên cứu tìm ra, sắp tới mình định phát triển và có thể đưa ra thương mại nên mình ko thể share được. Báo cáo luận văn mình để lại trường cũng ko trình bày giải thuật này :d
                                Nói chung thì tỷ lệ nhận dạng của mình khá cao(trên 90%), và đặc biệt nó có thể nhận đúng giọng của tất cả mọi người ( kể cả già trẻ, nam nữ), sắp tới mình sẽ tăng số từ vựng lên khoảng 20-30 và cải thiện độ chính xác lên nữa.

                                Mình chỉ có thể gợi ý cho bạn 1 chút thôi.

                                +Đầu tiên bạn phải lấy được tín hiệu một cách tốt nhất, giảm nhiễu tối đa.

                                +Thứ hai, phải hiểu rõ đối tượng. Khi nói cùng 1 từ thì giữa những lần nói khác nhau của cùng 1 ngừoi tín hiệu thu được không giống nhau. Có khi ta nói to chỗ này, nhỏ chỗ kia, kéo dài chỗ này, ngắn chỗ kia... nhưng bạn thử nghĩ xem tại sao con người chúng ta biết mà xác định chúng là cùng 1 từ chứ ko phải là những từ khác nhau.

                                Phương pháp lấy đặc trưng mà người khác đã làm thành công chưa chắc đã là tốt nhất. Theo mình thấy thì các hầu hết các phương pháp hiện tại chỉ thành công với giọng nói của người huấn luyện thôi, với người khác thì độ chính xác rất thấp ( việc bảo mật bằng giọng nói thì mình chưa tìm hiểu) bởi lẽ đặc trưng đó chỉ là những điểm chung giữa các lần nói của 1 người.

                                Mình muốn phát triển 1 kit có thể nhận cho tất cả mọi người, ko cần phải huấn luyện lại vì mục đích của mình là tạo ra các thiết bị điều khiển bằng giọng nói tiện lợi, rẻ tiền. Tuy nhiên, nếu mục đích của bạn khác thì bạn phải chọn đặc trưng cho phù hợp.

                                Một điểm nữa, là bạn đừng mong chờ sẽ lấy được 1 đặc trưng hoàn hảo, giúp ta phân biệt hoàn toàn từ này với từ khác, trong đó chắc chắn sẽ có phần chung giữa các từ.

                                Khi có được đặc trưng tốt rồi thì pp nhận dạng và huấn luyện sẽ tùy thuộc vào đặc trưng được lấy như thế nào.

                                Mình chỉ có thể nói vậy thôi, chúc bạn thành công.

                                Comment

                                Về tác giả

                                Collapse

                                antebk Tìm hiểu thêm về antebk

                                Bài viết mới nhất

                                Collapse

                                Đang tải...
                                X