Thông báo

**lntran** · 01-07-2010, 08:41

II Ý tưởng kinh doanh

Các hãng trước đây làm processor đều thất bại vì Intel có nhiều tiến để cải tiến công nghệ. Việc cải tiến công nghệ trước đây không những làm tăng tần số, mà còn cho phép tích hợp nhiều mạch phức tạp và cache làm cho các vi xử lý khác như MIPS, PowerPC không thể cạnh tranh nổi. Thêm vào đó nhờ có một thị trường cực lớn, Intel chập nhận lãi thấp thậm chí lỗ tạm thời điều mà các hãng khác không thể làm được. Vì vậy mình phải đưa ra một chiến lược kinh doanh phù hợp.

Hiện nay mặc dù Intel vẫn liên tục đổi mới công nghệ nhưng họ không thể tăng tần số vì chip chạy quá nóng. Ngoài ra họ cũng không thể xây dựng thêm các mạch phức tạp. Chip của Intel là kiểu superscalar (hiện giờ là 4-way). Để có thể chạy đồng thời 4 lệnh, họ phải phân tích sự độc lập của các lệnh trong một cửa sổ (gần 10 lệnh). Sự phụ thuộc này rất lớn. Nếu muốn tăng tiếp số lệnh có thể xử lý lên thì mạch sẽ cực kỳ phức tạp, gây ra nhiều critical paths, làm giảm tần số. Chính vì vậy cách duy nhất hiện nay là tăng số core, nhưng như mình đã nói, cách làm này chỉ làm tăng sức mạnh chip về lý thuyết. Trên thực tế các phần mềm chỉ chạy với một lõi và kiến trúc này chẳng có ý nghĩa gì. Nói tóm lại, hiện nay đang có một cơ hội vàng để phát triển một vi xử lý cạnh tranh với các chip của Intel.

Mình chọn hướng phát triển tương tự như các graphic card. Tức là Chip của mình sử dụng như một co-processor, gắn trên một PCI express card, có memory riêng biệt. Dữ liệu sẽ được đưa lên memory qua PCI express, chip sẽ xử lý và gửi trả kết quả về.

Mình định tập trung vào thị trường máy chủ, và cơ sở dữ liệu và thị trường này có lợi nhuận cực lớn. Giá bán các chip lên đến hàng nghìn USD, đảm bảo khả năng thu lợi ngay cả khi vừa mới bước vào thị trường. Thêm vào đó các máy chủ chỉ chạy một số phần mềm nhất định nên việc phát triên phần mềm không quá phức tạp. Bên cạnh đó có thể sử dụng các open source như MySQL...

**hithere123** · 01-07-2010, 11:25

Chào bác,

Rất hoan nghênh bác lập topic mới này. Bác cho em chen ngang một tí:

- Rất cảm ơn bác đã đóng góp một account để search tài liệu IEEE và mong ban quản trị chú ý tới đề nghị chia sẻ tài nguyên của bác.

- Đúng là vấn đề IO luôn luôn gây đau đầu, em sẽ cố gắng phụ họa bác vấn đề này nếu bác cho phép.

- Em không làm vi xử lý mà lại làm vi điều khiển nên nếu em có thắc mắc gì mà nó tồ tồ một tí thì cũng xin bác đừng cười nhé. Và tất nhiên là bác cho phép thì em mới dám hỏi. Hì

- Xin hết và chờ những bài tiếp của bác.

Thân mến.

**tonyvandinh** · 01-07-2010, 12:07

Nguyên văn bởi lntran Xem bài viết

II Ý tưởng kinh doanh
Mình định tập trung vào thị trường máy chủ, và cơ sở dữ liệu và thị trường này có lợi nhuận cực lớn. Giá bán các chip lên đến hàng nghìn USD, đảm bảo khả năng thu lợi ngay cả khi vừa mới bước vào thị trường. Thêm vào đó các máy chủ chỉ chạy một số phần mềm nhất định nên việc phát triên phần mềm không quá phức tạp. Bên cạnh đó có thể sử dụng các open source như MySQL...

Không biết cái máy mà bác định làm ra hay những người dùng chip của bác làm ra sẽ giá là bao nhiêu nhỉ? Chắc cũng cả hàng nghìn USD. Không biết có ai cần dữ để bỏ ra số tiền khá lớn để mua không!

**lntran** · 01-07-2010, 12:38

Hi các bác,

Mình giới thiệu tiếp ý tưởng nhé.

Kiến trúc mà mình ấn tượng và thích nhất đó là loại "Reconfigurable processor" (tương tự như FPGA mà các bác hay dùng vậy). Trong một FPGA có hàng nghìn slide mà thực chất là "Look up table" chạy đồng thời. Thêm vào đó các bác chỉ viết code (ví dụ Verilog) cho một chương trình (single thread). Điều này có nghĩa là một kiến trúc vi xử lý bao gồm hàng nghìn lõi chạy đồng thời để xử lý một chương trình duy nhất. Một điểu hiển nhiên kiến trúc này mạnh hơn vi xử lý thông thường rất nhiều lần. Nếu so sánh về hiệu suất xử lý thì processor kém hơn DSP nhiều lần, DSP kém hơn FPGA nhiều lần, và FPGA kém hơn ASIC nhiều lần. Kiến trúc vi xử lý của mình có hiệu suất tương đương FPGA nhưng lại có thể chạy các ứng dụng thông thường.

Tuy nhiên reconfigurable processor có một số vần đề lớn nên không thể sử dụng thay thế processor được.
1. Nó quá cứng nhắc, không mềm dẻo và linh hoạt như vi xử lý. Vi xử lý chạy mỗi xung đồng hồ một lệnh khác nhau nên cực kỳ linh hoạt. Còn loại reconfigurable processor sau khi được cấu hình xong thì trở nên cứng và chỉ xử lý dữ liệu theo một cấu trúc đã định sẵn. Ngay cả khi muốn thay đổi thì thời gian để cài đặt lại cũng rất lâu, không thể sử dụng trong các ứng dụng thông thường.

2. Các lõi của reconfigurable processor chạy đồng thời với xung đồng hồ. Chính vì vậy yêu cầu đồng bộ rất cao. Các bác lập trình cho FPGA thì biết rõ điều này. Thêm vào đó dữ liệu vào, ra phải luôn xuất hiện trong các xung đồng hồ. Điều này là không thể chấp nhận được cho các ứng dụng thông thường.

3. Resource limited. Các bác lập trình cho FPGA đều biết nếu FPGA quá nhỏ thì ta không thể lập trình một đoạn code quá lớn được. Nói đơn giản ta không thể map hết các lệnh vào trong FPGA. Với vi xử lý thì hoàn toàn khác. Các lệnh được chạy tuần tự nên cho dù có bao nhiêu lệnh, vi xử lý đều có thể xử lý được.

Tí nữa mình sẽ viết tiếp làm cách nào khác phục các điểm yếu này của reconfigurable processor.

Nhân tiện trả lời bác Tony: Chi phí sản xuất chip này chỉ khoảng hơn 100 USD thôi, nhưng mình định bán nó ít nhất 1000 USD. Loại này dành cho máy chủ nên người bình thường chẳng ai cần mua cả, và cũng chẳng ai cần xử lý dữ liệu khủng khiếp cả. Người mua là các doanh nghiệp, ngân hàng... Bọn này bỏ ra vài nghìn hoặc vài chục nghìn USD mua cái máy chủ là chuyện thường ở huyện mà. Bác không tin thi search thử giá mấy con Itanium, Xeon xem.

Cheers.

**tonyvandinh** · 01-07-2010, 12:52

Nguyên văn bởi lntran Xem bài viết

Kiến trúc mà mình ấn tượng và thích nhất đó là loại "Reconfigurable processor" (tương tự như FPGA mà các bác hay dùng vậy). Trong một FPGA có hàng nghìn slide mà thực chất là "Look up table" chạy đồng thời. Thêm vào đó các bác chỉ viết code (ví dụ Verilog) cho một chương trình (single thread). Điều này có nghĩa là một kiến trúc vi xử lý bao gồm hàng nghìn lõi chạy đồng thời để xử lý một chương trình duy nhất. Một điểu hiển nhiên kiến trúc này mạnh hơn vi xử lý thông thường rất nhiều lần. Nếu so sánh về hiệu suất xử lý thì processor kém hơn DSP nhiều lần, DSP kém hơn FPGA nhiều lần, và FPGA kém hơn ASIC nhiều lần. Kiến trúc vi xử lý của mình có hiệu suất tương đương FPGA nhưng lại có thể chạy các ứng dụng thông thường.

Reconfigurable Processor đã được design ở Texas Instrument và ST Microelectronics. Họ dùng High Level Synthesis (HLS) để làm chuyện này. Nếu đây là patent của bác, thì sue họ được nhiều tiền hơn là làm.

**itx** · 01-07-2010, 14:35

Ý tưởng nghe hay quá, nghe xong cứ tưởng mình đang ở trên mây.

*. Nếu thực tế bạn có ý tưởng và ý tưởng này có khả năng ứng dụng, thì khi bạn công khai nó ra mà không buộc người đọc nó phải ký bất kỳ một văn bản cam kết nào. Một nhà đầu tư sẽ không bao giờ đầu tư hay hợp tác với bạn. Bạn không có khả năng bảo vệ ngay cả ý tưởng của mình thì làm sao có thể bảo vệ tiền của họ.

*. Kiến trúc đa lõi hiện đang là xu hướng chung của thế giới, phải nói thật rằng những trình bày của bạn không có gì mới, bị "đụng hàng" rất nhiều, rất giống kến trúc Nvidia Tesla mà Nvidia đã làm thương mại.
(có thể xem qua http://en.wikipedia.org/wiki/Multi-core_processor , và http://en.wikipedia.org/wiki/Nvidia_Tesla , http://en.wikipedia.org/wiki/CUDA )

*. Ngoài Hardware ( đang nói ở đây) thì còn cái quyết định là Software impact, kết hợp hai cái này lại ta mới có thể tạo ra một hệ thống hoạt động.

***** còn nhiều nhưng thiết nghĩ ITX có thể tạm dừng tại đây.

**bqviet** · 01-07-2010, 14:42

Để đánh vào thị trường máy chủ cần xử lý hiệu năng cao, thì cứ máy chủ nhiều chíp và/hoặc kết hợp thêm máy chủ chạy song song (máy tính bó, điện toán đám mây) cho lành. Chỉ cần đặt cấu hình cho tốt, kết hợp thêm một tí tẹo phần mềm để cân bằng tải là đã hiệu quả lắm rồi. Đây là thế mạnh nhất của Linux nói riêng, và Unix nói chung rồi.

Người VN đã dùng máy tính bó làm HPC từ lâu rồi, trên thế giới thì khỏi nói.

**lntran** · 01-07-2010, 15:36

Hi các bác,

Mình chưa trình bày xong kiến trúc mà đã bị các bác ném đá tơi tả. Mấy cái kiến trúc CUDA chẳng lẽ mình lại không biết. Hơn lan man một chút nhưng mình nghĩ chắc bác không biết rằng CUDA không cho phép sử dụng pointer. Mà không sử dụng pointer thì làm thế quái nào xử lý cơ sở dữ liệu được. Nguyên tắc của CUDA hơi giống vector processor hoặc stream processor. Nó xử lý dữ liệu theo mảng, trong khi loại của mình xử lý dữ liệu theo dòng (sẽ trình bày sau). Mình có nghe nói có một số programmer định dùng CUDA cho cơ sở dữ liệu nhưng không biết họ làm đến đâu rồi. Tuy nhiên nói về thiết kế phần cứng CUDA không thích hợp cho cơ sở dữ liệu. Còn nói về chuyện Linux mình nghĩ bác bqviet không phải chuyên về processor architecture. Máy chủ được chia ra làm 2 loại front-end, và back-end. Front-end là loại nhận lệnh từ hàng trăm người dùng rồi gửi đến back-end server để xử lý. Loại front-end này thì cứ multi-core là OK. Bác khoái Linux, mình khuyên bác kiếm luôn Tilera processor về dùng. Con này có hơn trăm core là đằng khác. Loại Back-end server là loại xử lý các yêu cầu và chạy rất nặng. Các bác ở đây chắc chạy simulation EDA cũng nhiều rồi. Mình có lần chạy EPIC simulation bằng farm server mà mất hơn 2 tuần mới có dữ liệu. Nếu Linux chạy song song hay vậy chắc mình chỉ cần đợi một giờ. Mình có thể khẳng định với bác hầu hết các phần mềm chỉ chạy trên một core, bất kể bác dùng Linux, Solaris, Unix hay cái gì cũng vậy.

Nói vui một chút các bác chắc biết processor có thể xử lý dữ liệu graphics mà chẳng cần GPU. Nhưng GPU xử lý dữ liệu đồ họa nhanh hơn CPU hàng trăm lần nên mọi người vẫn dùng GPU. Vi xử lý của mình về một khía cạnh nào đó cũng tương tự như GPU như nó dùng để tăng tốc cho các ứng dụng cơ sở dữ liệu chứ không phải là đồ họa.

Cheers

**quoc_thaibk** · 01-07-2010, 16:04

Đừng trả lời lan man nữa anh - Tiếp hướng giải quyết vấn đề limited resource của Reconfigurable của FPGA đi anh.
@TonyVandinh: lntran chưa nói hết các patent của nó mà anh, sao biết đường sue (kiện) mấy thằng TI, ST được

**lntran** · 01-07-2010, 17:47

Hi,

Để mình viết tiếp về hướng xử lý những limitation của reconfigurable processor nhé.

Thứ nhất mình nhận thấy khi vi xử lý chạy các lệnh nằm trong vòng lặp như while loop, for loop, thì hoạt động của processor là tĩnh, có nghĩa là nó lặp lại một số lệnh nhiều lần theo một cách có thể dự đoán trước. Như vậy ta có thể nạp các lệnh này lên trên một mảng (array) các đơn vị xử lý (mình tạm gọi là PE) (các bác cứ hình dung giống như các bác configure các slide trong FPGA vậy). Sau đó dữ liệu sẽ được xử lý theo một dòng, chạy lần lượt qua nhiều PE khác nhau. Điều đặc biệt quan trọng đó là nhiều PE có thể xử lý dữ liệu cùng lúc tương tự như các slide trong FPGA vậy.

Một điều mình cần lưu ý các bác là các chương trình chạy lâu chủ yếu là vì các lệnh nằm trong vòng lặp. Mình đưa ra một ví dụ đơn giản để chứng minh. Một chương trình có kích thước 1GB, 90% các lệnh nằm ngoài vòng lặp, 10% các lệnh nằm trong vòng lặp. Vi xử lý có thể nạp 10MB instruction trong một giây, và chương trình chạy trong 1 giờ. Như vậy thời gian vi xử lý chạy các lệnh ngoài vòng lặp là: 1000*0.9/10=90 giây. Thời gian xử lý các lệnh trong vòng lặp là 3600 - 90 =3510 giây. Nếu sử dụng Amdahl's law thì nếu ta có thể tăng tốc xử lý các lệnh trong vòng lặp thì hiệu suất của toàn bộ hệ thông sẽ tăng lên rất cao. Ví dụ có thể chạy 20 MB các lệnh trong vòng lặp trong 1 giây thì thời gian chạy sẽ là 90 + 3510/2=1845 giây (hiệu suất tăng 1.95 lần). Chắc các bác sẽ hỏi với các chương trình không có nhiều lệnh trong vòng lặp thì sao. Nếu vậy thì nó đã chạy quá nhanh rồi, chẳng cần phải tăng tốc làm gì nữa. Ở đây mình chỉ nói sơ qua về lý thuyết cho các bác hiểu trước. Cụ thể việc nạp lệnh lên array như thế nào mình sẽ giới thiệu sau.

Nạp lệnh lên cả một array PE đương nhiên có latency rất lớn. Vi xử lý thông thường có thể nạp tối đa 4 lệnh một lúc (4 way superscalar), chứ đương nhiên không thể nạp cả hàng trăm lệnh cùng lúc được. Để xử lý vấn đề này, mình nhận thấy khi array đang chạy các lệnh trong vòng lặp thứ nhất (mất rất nhiều thời gian), ta có thể nạp lệnh của vòng lặp thứ hai, thứ ba cho toàn bộ array. Mỗi PE có một Instruction buffer, cho phép chứa nhiều lệnh (mình thiết kế chứa đến 8 lệnh). Như vậy sau khi PE chạy xong vòng lặp thứ nhất nó có thể nạp lệnh đã có sẵn trong buffer lên chạy vòng lặp thứ hai với latency cực ngắn chẳng khác gì các processor thông thường. Về sau mình sẽ nói rõ làm thế nào để các PE loại bỏ các lệnh hiện hành và nạp lệnh mới khi đã xử lý xong vòng lặp.

Nói về vấn đề đồng bộ, mình sử dụng một kỹ thuật đặc biệt để loại bỏ việc đồng bộ bằng clock signal gọi là "asynchronous pipeline". Cái này mình tin nhiều bác chưa nghe nói đến. Đây là kỹ thuật ở mức thiết kế mạch. Hiện giờ đang nói lý thuyết ở mức cao nên mình có thể nói processor của mình chạy kiểu dataflow. Trong kiến trúc dataflow, chương trình được biểu hiện bằng một đồ thị có hướng (directed graph). Mỗi lệnh được biểu hiện bằng một node. Dữ liệu của node trước được đẩy vào node sau theo edge. Khi các input data xuất hiện ở một node, thì nó sẽ xử lý, loại bỏ input data, và đẩy dữ liệu ra đường output. Các PE trong array chính là các node. Các đường kết nối trong array chính là các edge của graph. Với kiến trúc dataflow, người ta không có các lệnh nhảy mà thay vào đó là 2 lệnh đặc biệt gọi là "Branch" tương tự như Demultiplexor trong mạch điện, và "Merge" tương tự như multiplexor. Kiến trúc dataflow này có một số điểm hết sức quan trọng. Thứ nhất lệnh sau khi được nạp lên PE sẽ không chạy giống như các vi xử lý thông thường mà sẽ chờ đến khi input data xuất hiện mới chạy. Chính điều này đã loại bỏ hoàn toàn yêu cầu lập trình phải được đồng bộ như trong Verilog, cũng như input data phải xuất hiện liên tiếp trong các xung đồng hồ. Thứ hai nhiều PE có thể cùng chạy một lúc nếu input data của chúng xuất hiện đồng thời. Trước đây người ta đã chứng minh kiến trúc dataflow khai thác ILP (Instruction Level Parallelism) cao hơn nhiều lần so với kiến trúc Von-Neumann. Đây chính là nguyên nhân giúp kiến trúc vi xử lý này chạy nhanh hơn các vi xử lý thông thường nhiều lần trong khi vẫn chạy một chương trình duy nhất. Thứ ba, trong kiến trúc dataflow không cần phải sử dụng "Branch prediction". Đối với các lệnh điều kiện thực chất dữ liệu được chuyển và xử lý theo các đường khác nhau thông qua "Branch", và "Merge". Cuối cùng, không bao giờ gặp vấn đề về Data Hazard vì các PE chỉ chạy khi có dữ liệu đầu vào. Các loại superscalar hiện nay nạp vài lệnh cùng một lúc và phải phân tích xem các lệnh này có phụ thuộc nhau hay không. Nếu các lệnh không phụ thuộc thì có thể chạy cùng lúc, còn nếu không phải chạy tuần tự. Để tăng thêm hiệu suất người ta còn sử dụng cả renaming register. Với kiến trúc dataflow tất cả những thứ này đều không cần thiết (cái này quan trọng lắm nhưng chắc nhiều bác không hiểu hết. Mình có thể nói sơ bộ với các bác là nhưng mạch control của superscalar như Branch prediction, Dependence analyzer, register pool, renaming register, rất phức tạp, tốn rất nhiều diện tích, chạy tốn điện, và tạo nên nhiều critical paths làm giảm xung đồng hồ).

Cuối cùng để xử lý vần đề về resource limitation, mình có 2 cách giải quyết. Để đơn giản mình sẽ nói một cách ở đây. Giả sử như một vòng lặp có quá nhiều lệnh, và ta không thể nạp hết lên array được thì phải làm sao? Trong trường hợp này ta có thể chia các lệnh này thành 2 phần. Phần thứ nhất đủ nhỏ để nạp vào array. Phần thứ hai ta có thể chạy các lệnh một cách tuần tự giống như vi xử lý thông thường. Để làm được việc này các PE hỗ trợ 2 loại lệnh repeated instruction và single instruction. Repeated instruction là loại dùng để chạy các lệnh trong vòng lặp. Loại này chỉ nạp lên 1 lần và chạy rất nhiều lần trong vòng lặp. Single instruction là loại nạp 1 lần chạy một lần dùng cho các lệnh ngoài vòng lặp. Khi vòng lặp quá lớn ta sẽ sử dung 1 phần với các lệnh repeated instruction theo cách thông thường, phần còn lại ta dùng nạp liên tiếp single instruction trong vòng lặp. Cách này cực dở vì IFU (Instruction Fetching Unit) phải biết được điều kiện của vòng lặp trước khi nạp lệnh tiếp theo, tạo nên latency khá lớn. Tuy nhiên người ta đã nghiên cứu hơn 99% các lệnh nhảy có offset nhỏ hơn 10 bit. Có nghĩa là hầu hết các vòng lặp có số lệnh nhỏ hơn 1024. Điều này có nghĩa nếu ta làm một array tương đối lớn thì gấn như đã có thể nạp tất cả các vòng lặp. Với các loại quá đặc biệt ta đành phải chạy chậm. Xử lý các vòng lặp cực lớn mình còn cách thứ hai nữa nhưng nói ra cũng phức tạp và đây chỉ là trường hợp đặc biệt nên mình không trình bày.

Mình sẽ post tiếp kiến trúc cụ thể của vi xử lý này sau. Mình có thể đảm bảo với các bác đây là một kiến trúc rất đặc biệt, rất hay chư không tệ như mấy bác nhận xét đâu. Kiến trúc CUDA, Tilera, Cell cũng rất hay nhưng mỗi cái có ưu nhược điểm và ứng dụng khác nhau như quả cam với quả táo vậy. Mình mong các bác phân tích và đóng góp ý kiến một cách chính xác.

Cheers

**itx** · 01-07-2010, 18:08

1. Bạn có biết tại sao mấy thằng VC (Venture Capital) nó cho dự án của bạn vô sọt rác không?
Bạn nên nhớ bọn VC này công việc của tụi nó chỉ là tìm kiếm cơ hội để đầu tư.

2.Ý tưởng của bạn có cái demo nào không ? Bạn có cái Benchmark nào không để chứng tỏ nó chạy thế nào ? Benchmark do ai kiểm chứng, dựa trên tiêu chí gì? hay bạn mới nghĩ là nó sẽ chạy như thế.

3.Bạn hãy chú ý đến 3 điểm mà mình đã nói trong post trước.

**tonyvandinh** · 01-07-2010, 19:21

Nguyên văn bởi quoc_thaibk Xem bài viết

Đừng trả lời lan man nữa anh - Tiếp hướng giải quyết vấn đề limited resource của Reconfigurable của FPGA đi anh.
@TonyVandinh: lntran chưa nói hết các patent của nó mà anh, sao biết đường sue (kiện) mấy thằng TI, ST được

Đúng đó, cứ tiếp tục nói về cách thức một cách chi tiết. Nếu tôi thấy trùng hợp mà muốn tôi giúp kiện tụng, thì tôi sẽ giúp cho. Tôi có một người bạn chuyên môn về mảng kiện tụng ăn cắp patent.

**tonyvandinh** · 01-07-2010, 19:39

Đây là công cụ mà TI dùng để thiết kế reconfigurable processor. Bạn xem thử coi có dùng được không nhe!

http://www.synopsys.com/Tools/SLD/Pr...s/default.aspx

**bqviet** · 01-07-2010, 20:15

Nguyên văn bởi tonyvandinh Xem bài viết

Đúng đó, cứ tiếp tục nói về cách thức một cách chi tiết. Nếu tôi thấy trùng hợp mà muốn tôi giúp kiện tụng, thì tôi sẽ giúp cho. Tôi có một người bạn chuyên môn về mảng kiện tụng ăn cắp patent.

Mod tonyvandinh định giúp cho bên nào vậy ? Mấy vụ tranh cãi về patent thường kéo dài và tạo ra nhiều công ăn việc làm phết.

Thông báo

Innovative microprocessor architecture

Innovative microprocessor architecture

Comment

Comment

Comment

Comment

Comment

Comment

Comment

Comment

Comment

Comment

Comment

Comment

Comment

Comment

Về tác giả

Bài viết mới nhất