<div>Hi Michael,</div>
<div> </div>
<div>Would be grateful if you could advise if the following known firmware bug might be the cause</div>
<div> </div>
<div>
<table style="WIDTH: 524px; HEIGHT: 70px" dir="ltr" border="1" cellspacing="0" cellpadding="7" width="524">
<tbody>
<tr>
<td height="22" valign="top" width="11%"><font size="2">
<p align="left">2.</p></font></td>
<td height="22" valign="top" width="40%"><font size="1">
<p align="left">DoorBell loss</p></font></td>
<td height="22" valign="top" width="48%"><font size="1">
<p align="left">DoorBells may be lost on systems with a 64-KByte page size upon heavy stress conditions</p></font></td></tr></tbody></table></div>
<div> </div>
<div><a href="http://www.mellanox.com/pdf/firmware/fw-25218-5_3_000-release_notes.pdf">http://www.mellanox.com/pdf/firmware/fw-25218-5_3_000-release_notes.pdf</a></div>
<div> </div>
<div>Regards</div>
<div> </div>
<div>Lee</div>
<div><br><br> </div>
<div class="gmail_quote">On 19 May 2011 08:34, Michael Brown <span dir="ltr"><<a href="mailto:mbrown@fensystems.co.uk">mbrown@fensystems.co.uk</a>></span> wrote:<br>
<blockquote style="BORDER-LEFT: #ccc 1px solid; MARGIN: 0px 0px 0px 0.8ex; PADDING-LEFT: 1ex" class="gmail_quote">
<div>
<div></div>
<div class="h5">On Wednesday 18 May 2011 20:28:43 Lee Staples wrote:<br>> Have just reinstalled SCST and built latest ipxe commit<br>> (c49659c4f26e23f3fc234c2068786872554daa69) with the arbel queue pair<br>> patch from last year.<br>
><br>> Would be grateful if you could take a look at the error I'm getting and<br>> advise as it appears to login successfully to the server<br>><br>>    Could not open SAN device: Input/output error (<a href="http://ipxe.org/1d714039" target="_blank">http://ipxe.org/1d714039</a>)<br>
>    srp boot failedCMRC 0x23354 shutting down<br>>    Arbel 0x215b4 issuing command 0021<br>>    CMRC 0x23354 send error: Operation canceled (<a href="http://ipxe.org/0b1360a0" target="_blank">http://ipxe.org/0b1360a0</a>)<br>
<br></div></div>Login is handled via a pair of management datagrams.  The RC queue pair is not<br>used until the first packet after login completes.  Your client.log shows that<br>the RC queue pair is transitioning into an error state as soon as the first<br>
send WQE is posted:<br><br> QPN 0xd75405 context before doorbell:<br> Arbel 0x215b4 issuing command 0022<br> Arbel 0x215b4 QPN 0xd75405 context:<br> 00000000 : 30 00 19 00 ff 3e 3f 16-9f 0a 13 00 00 00 00 01<br> ...<br> QPN 0xd75405 context after doorbell:<br>
 Arbel 0x215b4 issuing command 0022<br> Arbel 0x215b4 QPN 0xd75405 context:<br> 00000000 : 60 00 19 00 f8 3c 28 14-9f 0a 13 00 00 00 00 01<br> ...<br><br>The first nibble of this hex dump is the queue state - 3="ready to send",<br>
6="error".<br><br>Something must be wrong with either the queue pair context or the send WQE<br>created by iPXE for Arbel.  I have examined both in excruciating detail the<br>last time I worked on this, and I couldn't find any problem.<br>
<br><br>Itay: is there a debug version of the firmware available that would provide<br>some indication of why the QP is transitioning to ERR?<br><font color="#888888"><br>Michael<br></font></blockquote></div><br>